NVIDIA HGX 平台

為每個資料中心大幅提升 AI 與高效能運算。

概覽

為每個資料中心強化 AI 與高效能運算

NVIDIA HGX™ 平台匯集 NVIDIA GPU、NVIDIA Vera CPUNVIDIA NVLink™NVIDIA 網路的完整功能,以及全面最佳化的 AI 與高效能運算 (HPC) 軟體堆疊,為每個資料中心提供最高的應用程式效能,並實現最快的洞察時間。

NVIDIA HGX Rubin NVL8 整合 8 顆 NVIDIA Rubin GPU 與第六代高速 NVLink 互連技術,能提供高達 HGX B200 高 10 倍的 Token 工廠傳輸量,並以少 4 倍的 GPU 數量來達到相同的訓練效能。NVIDIA Rubin 型 HGX 系統專為最嚴苛的代理 AI、資料分析與高效能運算工作負載而設計。NVIDIA HGX Rubin NVL8 可與 NVIDIA Vera CPU(配置為 HGX Vera Rubin NVL8)搭配使用,或與 x86 型 CPU 基板搭配使用。

NVIDIA Vera Rubin 全面量產,為全球代理 AI 工廠提供動力

NVIDIA Vera Rubin 正全面投入生產,台灣頂尖伺服器製造商與全球供應鏈領導者進行大規模製造並推出基於 Vera Rubin 的系統,藉此推動 AI 實驗室、雲端服務商與超大規模企業,打造未來的智慧。

加速下一代代理 AI 的發展

透過 HGX Rubin NVL8 提升 Token 工廠傳輸量

大規模服務代理 AI 與推理模型,需要極高的推論傳輸量。憑藉架構創新,包括 400 PFLOPS 的 NVFP4 運算能力、提升 3 倍達 176 TB/s 的記憶體頻寬,以及提升 2 倍達 28.8 TB/s 的 NVLink Switch 頻寬以實現高傳輸量 GPU 間通訊,HGX Rubin NVL8 能提供比 HGX B200 高 10 倍的 Token 工廠傳輸量。這種效能的躍進讓 AI 工廠能夠為更多使用者服務,將 Token 收益最大化,並降低每 Token 成本。

此為預測效能,之後可能會有所變動。Kimi K2 思考模型,具備 FTL <=500ms、ISL=4K、OSL=4K。HGX Rubin NVL8 具備 Sparse NVFP4,HGX B200 具備 Dense NVFP4

此為預測效能,之後可能會有所變動。GPU 數量是根據在 15T Token 且序列長度為 4K 的條件下預先訓練的 DeepSeek-R1 計算得出。

以減少 4 倍的 GPU 數量訓練下一代 AI 模型

HGX Rubin NVL8 將突破性的混合專家預先訓練引入 8 GPU 伺服器外形規格,僅需 1/4 的 GPU 即可訓練下一代代理 AI 模型,這歸功於各項架構創新,包括比 HGX B200 高出 4 倍的 NVFP4 訓練 FLOPS、1.6 倍的高速 HBM 記憶體容量,以及 2 倍的 NVLink 頻寬。這種訓練效率的飛躍,讓組織能在相同的基礎架構佔用範圍內訓練更多模型,降低模型開發的成本,並最大化 AI 基礎架構投資報酬率。

NVIDIA Vera CPU

NVIDIA Vera CPU

NVIDIA Vera 是 AI 時代的 CPU,專為代理 AI、強化學習與大規模資料處理而打造。NVIDIA Olympus 核心、高頻寬 LPDDR5X 記憶體,以及 NVIDIA Scalable Coherency Fabric,在加速運算的同時提供快速且高效的 CPU 執行能力,幫助 AI 工廠執行更多代理程式、評估與資料流程。

以 NVIDIA 網路技術加速 HGX 平台

AI 工廠與超級運算中心將數千顆 GPU 整合為單一的分散式運算引擎。 若要充分利用加速器,AI 與科學工作負載就需要確定性延遲、無損失傳輸量、穩定的迭代時間,以及在資料中心內及跨多個站點擴充的能力。

NVIDIA 網路提供完整堆疊網狀架構,結合 NVIDIA NVLink 規模化擴展、NVIDIA Quantum InfiniBand 與 Spectrum-X™ 乙太網路規模化擴展、Spectrum-XGS 乙太網路多中心規模化擴展、適用於基礎架構服務的 NVIDIA® BlueField® DPU 與 DOCA™,以及新一代矽光子技術平台,實現全球要求最嚴苛的 AI 資料中心。

NVIDIA HGX 規格

NVIDIA HGX 採用單一基板,可搭載 8 顆 NVIDIA Rubin、NVIDIA Blackwell 或 NVIDIA Blackwell Ultra SXM。 Rubin GPU 可與 NVIDIA Vera CPU 或 x86 基板搭配使用。這些強大的軟硬體組合為前所未有的 AI 與超級運算效能奠定了基礎。

1. 初步資訊。所有數值均為最大值且可能有所變更。NVFP4 推論規格為稀疏。
2. 密集規格。
3. 採用基於 Tensor 核心的模擬演算法來實現頂尖效能。
4. CPU 與記憶體規格是由 OEM 產品定義。

HGX B300<sup>3</sup> HGX B200<sup>3</sup>
外形規格 8個 NVIDIA Blackwell Ultra SXM 8個 NVIDIA Blackwell SXM
FP4 Tensor 核心<sup>1</sup> 144 PFLOPS | 108 PFLOPS 144 PFLOPS | 72 PFLOPS
FP8/FP6 Tensor 核心<sup>2</sup> 72 PFLOPS 72 PFLOPS
INT8 Tensor 核心<sup>2</sup> 3 POPS 72 POPS
FP16/BF16 Tensor 核心<sup>2</sup> 36 PFLOPS 36 PFLOPS
TF32 Tensor 核心<sup>2</sup> 18 PFLOPS 18 PFLOPS
FP32 600 TFLOPS 600 TFLOPS
FP64/FP64 Tensor 核心 10 TFLOPS 296 TFLOPS
總記憶體 2.1 TB 1.4 TB
NVIDIA NVLink 第五代 第五代
NVIDIA NVLink Switch™ NVLink 5 Switch NVLink 5 Switch
NVLink GPU 對 GPU 頻寬 每秒 1.8 TB 每秒 1.8 TB
總 NVLink 頻寬 每秒 14.4 TB 每秒 14.4 TB
網路頻寬 每秒 1.6 TB 每秒 0.8 TB
注意效能<sup>3</sup> 2x 1x

1. 稀疏的規格 | 密集
2. 稀疏的規格。密集型是所顯示稀疏規格的 ½。
3. 與 NVIDIA Blackwell 比較。
4. HGX B300 與 HGX B200 現已出貨。

HGX B300 HGX B200
Form Factor 8x NVIDIA Blackwell Ultra SXM 8x NVIDIA Blackwell SXM
FP4 Tensor Core<sup>1</sup> 144 PFLOPS | 108 PFLOPS 144 PFLOPS | 72 PFLOPS
FP8/FP6 Tensor Core<sup>2</sup> 72 PFLOPS 72 PFLOPS
INT8 Tensor Core<sup>2</sup> 3 POPS 72 POPS
FP16/BF16 Tensor Core<sup>2</sup> 36 PFLOPS 36 PFLOPS
TF32 Tensor Core<sup>2</sup> 18 PFLOPS 18 PFLOPS
FP32 600 TFLOPS 600 TFLOPS
FP64/FP64 Tensor Core 10 TFLOPS 296 TFLOPS
Total Memory 2.1 TB 1.4 TB
NVIDIA NVLink Fifth generation Fifth generation
NVIDIA NVLink Switch™ NVLink 5 Switch NVLink 5 Switch
NVLink GPU-to-GPU Bandwidth 1.8 TB/s 1.8 TB/s
Total NVLink Bandwidth 14.4 TB/s 14.4 TB/s
Networking Bandwidth 1.6 TB/s 0.8 TB/s
Attention Performance<sup>3</sup> 2x 1x

深入瞭解 NVIDIA Vera Rubin 平台。