Plataforma NVIDIA HGX

Impulsar la IA y computación de alto rendimiento para cada centro de datos.

Descripción

Impulsar la inteligencia artificial y la computación de alto rendimiento (HPC) para cada centro de datos

La plataforma NVIDIA HGX™ reúne toda la potencia de las GPU NVIDIA, las CPU NVIDIA Vera, NVIDIA NVLink™, la tecnología de redes de NVIDIA y las pilas de software de IA y computación de alto rendimiento (HPC) totalmente optimizadas para proporcionar el mayor rendimiento de aplicaciones y acelerar el tiempo a fin de obtener información para cada centro de datos.

NVIDIA HGX Rubin NVL8 integra ocho GPU NVIDIA Rubin con interconexiones NVLink de alta velocidad y sexta generación, lo que proporciona un rendimiento de fábrica de tokens hasta 10 veces superior en comparación con HGX B200 y alcanza el mismo rendimiento de entrenamiento con 4 veces menos GPU. Los sistemas HGX basados en NVIDIA Rubin están diseñados para las cargas de trabajo de IA de agentes, análisis de datos y HPC más exigentes. NVIDIA HGX Rubin NVL8 se puede combinar con las CPU NVIDIA Vera, configuradas como HGX Vera Rubin NVL8, o con placas base de CPU basadas en x86.

NVIDIA Vera Rubin entra en producción completa para impulsar las fábricas de IA de agentes en todo el mundo

NVIDIA Vera Rubin está entrando en producción completa, con los principales fabricantes de servidores de Taiwán y líderes globales de la cadena de suministro fabricando a escala y suministrando sistemas basados en Vera Rubin, impulsando a laboratorios de IA, proveedores de nube e hiperescaladores para crear la inteligencia del mañana.

Acelerando la próxima generación de IA de agentes

Aumente el rendimiento de la fábrica de tokens con HGX Rubin NVL8

Dar servicio a modelos de IA de agentes y de razonamiento a escala exige un rendimiento de inferencia extremo. Con innovaciones arquitectónicas que incluyen 400 PFLOPS de computación NVFP4, el triple de ancho de banda de memoria a 176 TB/s y el doble de ancho de banda de NVLink Switch a 28,8 TB/s para comunicación de alto rendimiento entre GPU, HGX Rubin NVL8 proporciona un rendimiento de fábrica de tokens 10 veces superior en comparación con HGX B200. Este aumento del rendimiento permite a las fábricas de IA prestar servicios a más usuarios, maximizar los ingresos por token y reducir el coste por token.

El rendimiento proyectado está sujeto a cambios. Modelo Kimi K2-Thinking con FTL<=500 ms, ISL=4K, OSL=4K. HGX Rubin NVL8 con NVFP4 disperso, HGX B200 con NVFP4 denso

El rendimiento proyectado está sujeto a cambios. Número de GPU basado en DeepSeek-R1 preentrenado con 15 billones de tokens y una longitud de secuencia de 4K. 

Entrene modelos de IA de próxima generación con 4 veces menos GPU

HGX Rubin NVL8 incorpora un preentrenamiento de mezcla de expertos innovador al factor de forma de servidor con 8 GPU, entrenando modelos de IA de agentes de próxima generación con 4 veces menos GPU gracias a las innovaciones arquitectónicas, como 4 veces más FLOPS de entrenamiento de NVFP4, 1,6 veces más capacidad de memoria HBM de alta velocidad y 2 veces más ancho de banda de NVLink en comparación con HGX B200. Este progreso en eficiencia de entrenamiento permite a las organizaciones entrenar más modelos con el mismo espacio de infraestructura, reducir el coste del desarrollo de modelos y maximizar el retorno de la inversión en infraestructura de IA.

CPU NVIDIA Vera

CPU NVIDIA Vera

NVIDIA Vera es la CPU para la era de la IA, diseñada específicamente para la IA de agentes, el aprendizaje por refuerzo y el procesamiento de datos a escala. Los núcleos de NVIDIA Olympus, la memoria LPDDR5X de alto ancho de banda y el tejido de coherencia escalable de NVIDIA ofrecen una ejecución de CPU rápida y eficiente, junto con computación acelerada, lo que ayuda a las fábricas de IA a ejecutar más agentes, evaluaciones y canalizaciones de datos. 

Acelerar HGX con redes NVIDIA

Las fábricas de IA y los centros de supercomputación abarcan miles de GPU como un único motor de computación distribuida. Para utilizar los aceleradores al cien por cien, las cargas de trabajo científicas y de IA exigen latencia determinista, rendimiento sin pérdidas, tiempos de iteración estables y la capacidad de escalar no solo dentro de un centro de datos, sino también en varios sitios.

Las redes de NVIDIA proporcionan el tejido de pila completa que lo hace posible, combinando la escalabilidad vertical de NVIDIA NVLink, la escalabilidad horizontal de NVIDIA Quantum InfiniBand y Spectrum-X™ Ethernet y la escalabilidad distribuida de Spectrum-XGS Ethernet en varios centros de datos, NVIDIA® BlueField® DPU y DOCA™ para servicios de infraestructura, y plataformas fotónicas de silicio de próxima generación, lo cual habilita los centros de datos de IA más exigentes del mundo.

Especificaciones de NVIDIA HGX

NVIDIA HGX está disponible en una única placa base con ocho SXM NVIDIA Rubin, NVIDIA Blackwell o NVIDIA Blackwell Ultra. Las GPU Rubin se pueden combinar con una CPU NVIDIA Vera o una placa base basada en x86. Estas potentes combinaciones de hardware y software sientan las bases para un rendimiento de supercomputación de IA sin precedentes.

Especificaciones del sistema NVIDIA HGX Vera Rubin NVL8<sup>1</sup> NVIDIA HGX Rubin NVL8<sup>1</sup>
Configuración 8x NVIDIA Rubin SXM con CPU Vera de un solo zócalo 8x NVIDIA Rubin SXM
CPU | Recuento de núcleos CPU NVIDIA Vera | 88 núcleos NVIDIA Olympus personalizados (compatibles con Arm®) con multithreading espacial (SMT) x86 CPU<sup>4</sup>
Memoria de CPU | Ancho de banda 1,5 TB LPDDR5X | 1,2 TB/s x86 CPU<sup>4</sup>
Inferencia NVFP4 400 PFLOPS
Entrenamiento de NVFP4<sup>2</sup> 280 PFLOPS
Entrenamiento de FP8/FP6<sup>2</sup> 140 PFLOPS
INT8<sup>2</sup> 2 POPS
FP16/BF16<sup>2</sup> 32 PFLOPS
TF32<sup>2</sup> 16 PFLOPS
FP32 1,040 TFLOPS
FP64 265 TFLOPS
FP32 SGEMM<sup>3</sup> 3,200 TFLOPS
FP64 DGEMM<sup>3</sup> 1,600 TFLOPS
Memoria de la GPU | Ancho de banda 2,3 TB HBM4 | 176 TB/s
Ancho de banda de NVLink Switch 28,8 TB/s
NVIDIA NVLink Sexta generación
Ancho de banda de red 1,6 TB/s
Especificaciones individuales de las GPU NVIDIA Rubin GPU<sup>1</sup>
Inferencia NVFP4 50 PFLOPS
Entrenamiento NVFP4<sup>2</sup> 35 PFLOPS
Entrenamiento de FP8/FP6<sup>2</sup> 17.5 PFLOPS
INT8<sup>2</sup> 250 TOPS
FP16/BF16<sup>2</sup> 4 PFLOPS
TF32<sup>2</sup> 2 PFLOPS
FP32 130 TFLOPS
FP64 33 TFLOPS
FP32 SGEMM<sup>3</sup> 400 TFLOPS
FP64 DGEMM<sup>3</sup> 200 TFLOPS
Ancho de banda de NVLink 3,6 TB/s
NVIDIA NVLink Sexta generación
Memoria de la GPU | Ancho de banda 288 GB HBM4 | 22 TB/s

1. Información preliminar. Todos los valores son aproximados y están sujetos a cambios. La especificación de inferencia de NVFP4 es en modo disperso.
2. Especificación densa.
3. Rendimiento máximo utilizando algoritmos de emulación basados en núcleos tensor.
4. Las especificaciones de CPU y memoria están definidas por ofertas de fabricantes de equipos originales.

HGX B300<sup>4</sup> HGX B200<sup>4</sup>
Factor de forma 8x NVIDIA Blackwell Ultra SXM 8x NVIDIA Blackwell SXM
Núcleo Tensor FP4<sup>1</sup> 144 PETAFLOPS | 108 PETAFLOPS 144 PETAFLOPS | 72 PETAFLOPS
Núcleo Tensor FP8/FP6<sup>2</sup> 72 PETAFLOPS 72 PETAFLOPS
Núcleo Tensor INT8<sup>2</sup> 3 POPS 72 POPS
Núcleo Tensor FP16/BF16<sup>2</sup> 36 PETAFLOPS 36 PETAFLOPS
Núcleo Tensor TF32<sup>2</sup> 18 PETAFLOPS 18 PETAFLOPS
FP32 600 TERAFLOPS 600 TERAFLOPS
FP64/FP64 Tensor Core 10 TERAFLOPS 296 TERAFLOPS
Memoria total 2.1 TB 1.4 TB
NVIDIA NVLink Quinta generación Quinta generación
NVIDIA NVLink Switch™ Conmutador NVLink 5 Conmutador NVLink 5
Ancho de banda de GPU a GPU de NVSwitch 1.8 TB/s 1.8 TB/s
Ancho de banda NVLink total 14.4 TB/s 14.4 TB/s
Networking Bandwidth 1.6 TB/s 0.8 TB/s
Attention Performance<sup>3</sup> 2x 1x

1. Especificación en disperso | denso
2. Especificación en disperso. Se muestra la especificación en denso como mitad de disperso.
3. vs. NVIDIA Blackwell.
4. HGX B300 y HGX B200 ya están disponibles para enviar.

HGX B300 HGX B200
Form Factor 8x NVIDIA Blackwell Ultra SXM 8x NVIDIA Blackwell SXM
FP4 Tensor Core<sup>1</sup> 144 PFLOPS | 108 PFLOPS 144 PFLOPS | 72 PFLOPS
FP8/FP6 Tensor Core<sup>2</sup> 72 PFLOPS 72 PFLOPS
INT8 Tensor Core<sup>2</sup> 3 POPS 72 POPS
FP16/BF16 Tensor Core<sup>2</sup> 36 PFLOPS 36 PFLOPS
TF32 Tensor Core<sup>2</sup> 18 PFLOPS 18 PFLOPS
FP32 600 TFLOPS 600 TFLOPS
FP64/FP64 Tensor Core 10 TFLOPS 296 TFLOPS
Total Memory 2.1 TB 1.4 TB
NVIDIA NVLink Fifth generation Fifth generation
NVIDIA NVLink Switch™ NVLink 5 Switch NVLink 5 Switch
NVLink GPU-to-GPU Bandwidth 1.8 TB/s 1.8 TB/s
Total NVLink Bandwidth 14.4 TB/s 14.4 TB/s
Networking Bandwidth 1.6 TB/s 0.8 TB/s
Attention Performance<sup>3</sup> 2x 1x

Más información sobre la plataforma NVIDIA Vera Rubin.