Un destacado experto ha planteado dudas críticas sobre la veracidad de las afirmaciones sobre las supercomputadoras de IA de “escala Zetta” y “Exaescala”.
En un artículo que profundiza en las complejidades técnicas de estos términos, Doug Edeline de… Cable HPC Explica cómo términos como exaescala, que tradicionalmente se refiere a computadoras que logran un quintillón de operaciones de punto flotante por segundo (FLOPS), a menudo se usan incorrectamente o se distorsionan, especialmente en el contexto de las cargas de trabajo de IA.
Eadline señala que muchos anuncios recientes que promocionan el rendimiento en “exaescala” o incluso en “escala zetta” se basan en métricas especulativas, en lugar de resultados probados. Escribe: “¿Cómo surgen estos números de 'huele tu café' a partir de sistemas no estructurados?” – Una pregunta que resalta la brecha entre el rendimiento máximo teórico y los resultados reales medidos en el campo de HPC. Históricamente, el término exaescala se ha reservado para sistemas que logran al menos 10^18 flops en aritmética sostenida de doble precisión (64 bits), un estándar verificado por estándares como High Performance LINPACK (HPLinpack).
Comparar autos
Como explica Eadline, la distinción entre FLOPS en IA y HPC es crucial. Si bien las cargas de trabajo de IA a menudo dependen de formatos de punto flotante de baja precisión, como FP16, FP8 o incluso FP4, los sistemas HPC tradicionales requieren una mayor precisión para obtener resultados precisos.
Es el uso de estos números de baja precisión lo que infla las afirmaciones de rendimiento de exaFLOP o incluso de zettaFLOP. Según Eadline, “llamarlo 'AI zetaFLOPS' es ridículo porque no se ha ejecutado ninguna IA en esta máquina imperfecta”.
También enfatiza la importancia de utilizar puntos de referencia validados como HPLinpack, que ha sido el estándar para medir el rendimiento de HPC desde 1993, y cómo el uso de números máximos teóricos puede resultar engañoso.
Los dos superordenadores que actualmente forman parte del Club Exascale – borde En el Laboratorio Nacional Oak Ridge y Aurora En el Laboratorio Nacional de Argonne: probado utilizando aplicaciones reales, a diferencia de muchos sistemas de inteligencia artificial que hacen afirmaciones de exaescala.
Para explicar la diferencia entre los diferentes formatos de punto flotante, Eadline ofrece una analogía con un automóvil: “El FP64 promedio de doble precisión pesa alrededor de 4000 libras (1814 kilos). Es excelente para navegar por terrenos, tiene capacidad para cuatro personas cómodamente y rinde 30 mpg combinados. Ahora, considere el FP4, al que se le ha reducido el peso en 250 libras (113 kg) y obtiene 480 mpg, lo cual es una gran noticia. En primer lugar, el auto ha sido despojado de todo excepto un motor pequeño y tal vez un asiento, y todo lo demás. Además, las ruedas tienen ruedas de 16 lados (2^4) y proporcionan una marcha más accidentada en comparación con la marcha suave de un FP64 con ruedas que miden aproximadamente 2^64 lados. Es posible que haya lugares donde su FP4 funcione bien, como al bajar. Inference Lane, pero no funcionará tan bien cuando se dirija a la autopista FP64 HPC”.
El artículo de Eadline sirve como recordatorio de que, si bien la IA y la HPC están convergiendo, los estándares para medir el desempeño en estas áreas siguen siendo distintos. “Confundir las cosas con 'AI FLOPS' tampoco ayudará”, dice, señalando que sólo los sistemas verificados que cumplan con los estrictos requisitos para cálculos de doble precisión deben considerarse verdaderos sistemas de exaescala o zettaescala.