- Nvidia y xAI están colaborando en Colossus
- La tecnología xAI ha reducido significativamente las “colisiones de flujo” durante el entrenamiento de modelos de IA
- Spectrum-X ha sido crucial en el entrenamiento de la familia de modelos Grok AI
NVIDIA Destacó cómo el clúster de supercomputadoras “Colossus” de xAI puede controlar 100.000 GPU Hopper, y todo se reduce al uso de la plataforma de red Ethernet Spectrum-X del fabricante de chips.
La compañía reveló que Spectrum-X está diseñado para ofrecer capacidades de rendimiento masivas a fábricas de IA multiinquilino a gran escala utilizando una red de acceso remoto a memoria de directorio (RDMA).
La plataforma se ha implementado en Colossus, la supercomputadora de inteligencia artificial más grande del mundo, desde sus inicios. La empresa propiedad de Elon Musk utiliza el grupo para entrenar su serie Grok de modelos de lenguaje grandes (LLM), que impulsan los chatbots entregados a los usuarios de X.
La instalación se construyó en colaboración con Nvidia en solo 122 días y xAI está trabajando actualmente para ampliarla, con planes de implementar un total de 200.000 GPU Nvidia Hopper.
El entrenamiento de Grok requiere gran potencia de fuego.
Los modelos de IA de Grok son muy grandes: Grok-1 mide 314 mil millones de parámetros y Grok-2 superó a Cloud 3.5 Sonnet y GPT-4 Turbo en el momento del lanzamiento en agosto.
Naturalmente, entrenar estos modelos requiere un rendimiento de red significativo. Al utilizar la plataforma Spectrum-X de Nvidia, la tecnología xAI no registró degradación heredada de aplicaciones ni pérdida de paquetes debido a “colisiones de flujo” o cuellos de botella dentro de las rutas de red de IA.
xAI reveló que pudo mantener una tasa de transferencia de datos del 95% gracias a las capacidades de control de congestión de Spectrum-X. La compañía añadió que este nivel de rendimiento no se puede proporcionar a esta escala a través de una red Ethernet estándar.
Con Ethernet tradicional, esto normalmente crea miles de colisiones de flujo y proporciona solo una tasa de transferencia de datos del 60%, según Nvidia.
Un portavoz de xAI dijo que la combinación de las GPU Hopper y Spectrum-X permitió a la empresa “superar los límites del entrenamiento de modelos de IA” y crear una “fábrica de IA optimizada y ultrarrápida”.
“La IA se está volviendo crítica y requiere mayor rendimiento, seguridad, escalabilidad y rentabilidad”, dijo Gilad Scheiner, vicepresidente senior de redes de Nvidia.
“La plataforma de red Ethernet NvidiaSpectrum-X está diseñada para proporcionar a innovadores como xAI un procesamiento, análisis y ejecución más rápidos de cargas de trabajo de IA, acelerando así el desarrollo, la implementación y el tiempo de comercialización de las soluciones de IA”.
Parte de la plataforma Spectrum-X incluye el conmutador Ethernet Spectrum SN5600, que admite velocidades de puerto de hasta 800 Gbit/s y se basa en el conmutador ASIC Spectrum-4, según Nvidia.
xAI eligió integrar el conmutador Spectrum-X SN5600 con NVIDIA BlueField-3 SuperNIC para obtener un mayor rendimiento.