muerto Microsoft lanzó al público el martes su último y mejor modelo de inteligencia artificial (IA). La compañía dice que el modelo de código abierto llamado Meta Llama 3.1 405B supera a los principales modelos cerrados de IA como GPT-4, GPT-4o y Claude 3.5 Sonnet en varios puntos de referencia. Liberado También se han actualizado los modelos Llama 3 8B y 70B AI. Las versiones más nuevas se derivaron del formulario 405B y ahora ofrecen una ventana contextual que contiene 128.000 tokens. Meta afirma que ambos modelos se encuentran ahora entre los principales modelos de lenguajes grandes (LLM) de código abierto debido a sus tamaños.
Anunciando el nuevo modelo de IA en un blog correo“Llama 3.1 405B es el primer modelo disponible abiertamente que rivaliza con los mejores modelos de IA en lo que respecta a capacidades de última generación en conocimientos generales, capacidad de enrutamiento, matemáticas, uso de herramientas y traducción multilingüe”, dijo el gigante tecnológico.
Vale la pena señalar que 405B aquí se refiere a 405 mil millones de parámetros, que pueden entenderse como la cantidad de nodos de conocimiento en el LLM. Cuanto mayor sea el parámetro, mayor será la capacidad del modelo de IA para manejar consultas complejas. La ventana de contexto del formulario tiene 128.000 caracteres. Admite los idiomas inglés, alemán, francés, italiano, portugués, hindi, español y tailandés.
La compañía afirma que el Llama 3.1 405B ha sido evaluado en más de 150 pruebas comparativas en múltiples experiencias. Según los datos compartidos en la publicación, el modelo Meta AI obtuvo una puntuación de 96,8 en la prueba Grade School Math 8K (GSM8K), 94,2 de GPT-4, 96,1 de GPT-4o y 96,4 de Claude 3.5 Sonnet. También superó a estos modelos en la prueba Reasoning Challenge (ARC) de AI2 para el dominio de las ciencias, la prueba Nexus para el uso de herramientas y el punto de referencia de Matemáticas en la escuela primaria multilingüe (MGSM).
El modelo de IA más grande de Meta se entrenó en más de 15 billones de códigos con más de 16.000 GPU Nvidia H100. Una de las adiciones más importantes de Llama 3.1 405B es el soporte oficial para invocar herramientas que permitirán a los desarrolladores utilizar Brave Search para búsquedas web, Wolfram Alpha para cálculos matemáticos complejos y Code Interpreter para generar código Python.
Dado que Meta Llama 3.1 405B está disponible en código abierto, las personas pueden acceder a él desde el sitio web de la empresa. sitio web O de su cara abrazadora existenteSin embargo, al ser un modelo grande, requiere alrededor de 750 GB de espacio de almacenamiento en disco para funcionar. Para inferir, también se necesitarán dos nodos en el modelo de paralelismo 16 (MP16). El modelo de 16 paralelismos es una implementación específica del modelo de paralelismo en el que una gran red neuronal se descompone en 16 máquinas o procesadores.
Además de su disponibilidad general, el modelo también está disponible en las principales plataformas de inteligencia artificial de AWS, Nvidia, Databricks, Groq, Dell, Azure, Google Cloud, Snowflake y otras. La compañía dice que un total de 25 plataformas de este tipo se ejecutarán en el sistema Llama 3.1 405B. Por motivos de seguridad, la empresa ha utilizado Llama Guard 3 y Prompt Guards, dos nuevas herramientas que protegen a LLM de posibles daños y abusos.