China abre barata a los científicos de inteligencia artificial

[ad_1]

Sitio web de Deepseek en la pantalla del iPhone. — La empresa china DeepSec presentó una versión del modelo de lenguaje grande el año pasado.Crédito: Koshiro K/Alamy

Un modelo de lenguaje grande se llama diseñador chino. Búsqueda profunda-R1 Entusiasma a los científicos como un competidor abierto y asequible de modelos “pensantes” como el O1 de Openai.

Estos modelos generan respuestas paso a paso, en un proceso similar al pensamiento humano. Esto los hace más aptos que los modelos de lenguaje anteriores para resolver problemas científicos y puede hacerlos Útil en la investigación. Las pruebas iniciales del R1, publicadas el 20 de enero, muestran que su rendimiento en algunas tareas de química, matemáticas y codificación está a la par del O1, que es Los investigadores quedaron cautivados cuando Openai lo lanzó en septiembre..

“Esto es salvaje y completamente inesperado”, escribió en X Elvis Saravia, investigador de IA y cofundador de la consultora de IA Dair.ai, con sede en el Reino Unido.

El R1 destaca por otra razón. Deepseek, la startup con sede en Hangzhou que diseñó el modelo, lo lanzó como un “peso abierto”, lo que significa que los investigadores pueden estudiar y desarrollar el algoritmo. Publicado bajo la licencia MIT, el modelo se puede reutilizar libremente, pero no se considera completamente abierto porque sus datos de entrenamiento no están disponibles.

“La apertura de Deepseek es absolutamente notable”, afirma Mario Kren, líder del Laboratorio de Científicos Artificiales del Instituto Max Planck para la Ciencia de la Luz en Erlangen, Alemania. En comparación, el O1 y otros modelos diseñados por Openai en San Francisco, California, Incluyendo su último esfuerzo O3. “Básicamente cajas negras”, dice.

Las alucinaciones de la IA no se pueden detener, pero estas tecnologías pueden limitar sus daños

Deepseek no ha publicado el costo total del entrenamiento de R1, pero cobra a los usuarios lo que cuesta ejecutar O1. La compañía también ha creado versiones “destiladas” en miniatura de R1 para permitir a los investigadores con potencia informática limitada jugar con el modelo. “Una experiencia cuesta más de £300 con el O1, menos de $10 con el R1”, dice Krenn. “Esta es una gran diferencia que definitivamente desempeñará un papel en la adopción futura”.

Modelos de desafío

R1 es parte de Un gran avance en los modelos de lenguaje grande chino (LLMS). Deepseek, una startup de fondos de cobertura, surgió de una relativa oscuridad el mes pasado cuando lanzó un chatbot llamado V3, que superó a sus principales rivales, a pesar de contar con un presupuesto reducido. Los expertos estiman que alquilar el hardware necesario para entrenar el modelo costó alrededor de 6 millones de dólares, en comparación con los 60 millones de dólares del LAMA 3.1 405B de Meta, que utilizó 11 veces más recursos informáticos.

Parte de los rumores en torno a Deepseek es que logró fabricar el R1 a pesar de los controles de exportación de Estados Unidos que limitan el acceso de las empresas chinas a los mejores chips de computadora diseñados para procesar inteligencia artificial. “El hecho de que provenga de China demuestra que ser eficiente con los recursos es más importante que calcular la escala”, dice François Chollet, investigador de Amnistía Internacional en Seattle, Washington.

El liderazgo de DeBisic sugiere que “el liderazgo percibido [the] en el “

Una cadena de pensamiento

LLMS se entrena con miles de millones de muestras de texto, cortándolas en partes de palabras llamadas “tokens” y aprendiendo patrones en los datos. Estas asociaciones permiten que el modelo prediga características posteriores de la oración. Pero los LLMS son vulnerables a inventar hechos, un Un fenómeno llamado “alucinaciones”y, a menudo, les cuesta pensar en los problemas.

[ad_2]

Source Article Link

Modelos de desafío

Una cadena de pensamiento

By lisa nichols

Leave a Reply Cancel reply