為每個資料中心大幅提升 AI 與高效能運算。
NVIDIA HGX™ 平台匯集 NVIDIA GPU、NVIDIA Vera CPU、NVIDIA NVLink™、NVIDIA 網路的完整功能,以及全面最佳化的 AI 與高效能運算 (HPC) 軟體堆疊,為每個資料中心提供最高的應用程式效能,並實現最快的洞察時間。
NVIDIA HGX Rubin NVL8 整合 8 顆 NVIDIA Rubin GPU 與第六代高速 NVLink 互連技術,能提供高達 HGX B200 高 10 倍的 Token 工廠傳輸量,並以少 4 倍的 GPU 數量來達到相同的訓練效能。NVIDIA Rubin 型 HGX 系統專為最嚴苛的代理 AI、資料分析與高效能運算工作負載而設計。NVIDIA HGX Rubin NVL8 可與 NVIDIA Vera CPU(配置為 HGX Vera Rubin NVL8)搭配使用,或與 x86 型 CPU 基板搭配使用。
大規模服務代理 AI 與推理模型,需要極高的推論傳輸量。憑藉架構創新,包括 400 PFLOPS 的 NVFP4 運算能力、提升 3 倍達 176 TB/s 的記憶體頻寬,以及提升 2 倍達 28.8 TB/s 的 NVLink Switch 頻寬以實現高傳輸量 GPU 間通訊,HGX Rubin NVL8 能提供比 HGX B200 高 10 倍的 Token 工廠傳輸量。這種效能的躍進讓 AI 工廠能夠為更多使用者服務,將 Token 收益最大化,並降低每 Token 成本。
此為預測效能,之後可能會有所變動。Kimi K2 思考模型,具備 FTL <=500ms、ISL=4K、OSL=4K。HGX Rubin NVL8 具備 Sparse NVFP4,HGX B200 具備 Dense NVFP4
此為預測效能,之後可能會有所變動。GPU 數量是根據在 15T Token 且序列長度為 4K 的條件下預先訓練的 DeepSeek-R1 計算得出。
HGX Rubin NVL8 將突破性的混合專家預先訓練引入 8 GPU 伺服器外形規格,僅需 1/4 的 GPU 即可訓練下一代代理 AI 模型,這歸功於各項架構創新,包括比 HGX B200 高出 4 倍的 NVFP4 訓練 FLOPS、1.6 倍的高速 HBM 記憶體容量,以及 2 倍的 NVLink 頻寬。這種訓練效率的飛躍,讓組織能在相同的基礎架構佔用範圍內訓練更多模型,降低模型開發的成本,並最大化 AI 基礎架構投資報酬率。
NVIDIA Vera 是 AI 時代的 CPU,專為代理 AI、強化學習與大規模資料處理而打造。NVIDIA Olympus 核心、高頻寬 LPDDR5X 記憶體,以及 NVIDIA Scalable Coherency Fabric,在加速運算的同時提供快速且高效的 CPU 執行能力,幫助 AI 工廠執行更多代理程式、評估與資料流程。
AI 工廠與超級運算中心將數千顆 GPU 整合為單一的分散式運算引擎。 若要充分利用加速器,AI 與科學工作負載就需要確定性延遲、無損失傳輸量、穩定的迭代時間,以及在資料中心內及跨多個站點擴充的能力。
NVIDIA 網路提供完整堆疊網狀架構,結合 NVIDIA NVLink 規模化擴展、NVIDIA Quantum InfiniBand 與 Spectrum-X™ 乙太網路規模化擴展、Spectrum-XGS 乙太網路多中心規模化擴展、適用於基礎架構服務的 NVIDIA® BlueField® DPU 與 DOCA™,以及新一代矽光子技術平台,實現全球要求最嚴苛的 AI 資料中心。
NVIDIA HGX 採用單一基板,可搭載 8 顆 NVIDIA Rubin、NVIDIA Blackwell 或 NVIDIA Blackwell Ultra SXM。 Rubin GPU 可與 NVIDIA Vera CPU 或 x86 基板搭配使用。這些強大的軟硬體組合為前所未有的 AI 與超級運算效能奠定了基礎。
1. 初步資訊。所有數值均為最大值且可能有所變更。NVFP4 推論規格為稀疏。
2. 密集規格。
3. 採用基於 Tensor 核心的模擬演算法來實現頂尖效能。
4. CPU 與記憶體規格是由 OEM 產品定義。
| HGX B300<sup>3</sup> | HGX B200<sup>3</sup> | |
|---|---|---|
| 外形規格 | 8個 NVIDIA Blackwell Ultra SXM | 8個 NVIDIA Blackwell SXM |
| FP4 Tensor 核心<sup>1</sup> | 144 PFLOPS | 108 PFLOPS | 144 PFLOPS | 72 PFLOPS |
| FP8/FP6 Tensor 核心<sup>2</sup> | 72 PFLOPS | 72 PFLOPS |
| INT8 Tensor 核心<sup>2</sup> | 3 POPS | 72 POPS |
| FP16/BF16 Tensor 核心<sup>2</sup> | 36 PFLOPS | 36 PFLOPS |
| TF32 Tensor 核心<sup>2</sup> | 18 PFLOPS | 18 PFLOPS |
| FP32 | 600 TFLOPS | 600 TFLOPS |
| FP64/FP64 Tensor 核心 | 10 TFLOPS | 296 TFLOPS |
| 總記憶體 | 2.1 TB | 1.4 TB |
| NVIDIA NVLink | 第五代 | 第五代 |
| NVIDIA NVLink Switch™ | NVLink 5 Switch | NVLink 5 Switch |
| NVLink GPU 對 GPU 頻寬 | 每秒 1.8 TB | 每秒 1.8 TB |
| 總 NVLink 頻寬 | 每秒 14.4 TB | 每秒 14.4 TB |
| 網路頻寬 | 每秒 1.6 TB | 每秒 0.8 TB |
| 注意效能<sup>3</sup> | 2x | 1x |
1. 稀疏的規格 | 密集
2. 稀疏的規格。密集型是所顯示稀疏規格的 ½。
3. 與 NVIDIA Blackwell 比較。
4. HGX B300 與 HGX B200 現已出貨。
深入瞭解 NVIDIA Vera Rubin 平台。