Un estudio de Apple revela una importante falla de IA en OpenAI, Google y Meta LLM



Los modelos de lenguajes grandes (LLM) pueden no ser tan inteligentes como parecen, según A el estudia de manzana Investigadores.

Los estudiantes de MBA de OpenAI, Google, Meta y otros han sido elogiados por sus impresionantes habilidades de razonamiento. Pero las investigaciones sugieren que su supuesta inteligencia puede estar más cerca de una “coincidencia de patrones complejos” que de un “verdadero razonamiento lógico”. Sí, incluso OpenAI o1 Modelo de razonamiento avanzado.

El estándar más común para las habilidades de razonamiento es una prueba llamada GSM8K, pero debido a que es tan común, existe el riesgo de contaminación de los datos. Esto significa que los estudiantes de LLM pueden conocer las respuestas del examen porque han sido capacitados en esas respuestas, más que por su inteligencia inherente.

Para probar esto, el estudio desarrolló un nuevo punto de referencia llamado GSM-Symbolic que mantiene la esencia de los problemas de inferencia, pero cambia variables, como nombres, números y complejidad, y agrega información irrelevante. Lo que descubrieron fue una sorprendente “fragilidad” en el desempeño del LLM. El estudio probó más de 20 modelos, incluidos o1 y GPT-4o de OpenAI, Gemma 2 de Google y Llama 3 de Meta. Con cada modelo, el rendimiento del modelo disminuyó cuando se cambiaron las variables.

La precisión disminuyó unos pocos puntos porcentuales cuando se cambiaron los nombres y las variables. Como señalaron los investigadores, los modelos de OpenAI funcionaron mejor que otros modelos de código abierto. Sin embargo, la variación se consideró “no despreciable”, lo que significa que no debería ocurrir ninguna variación real. Sin embargo, las cosas se pusieron realmente interesantes cuando los investigadores agregaron a la mezcla “frases aparentemente relevantes pero en última instancia sin importancia”.

See also  What's New in Google Gemini 1.5 (Video)

Velocidad de la luz triturable

Para probar la hipótesis de que los estudiantes de MBA dependían más de la coincidencia de patrones que del pensamiento real, el estudio añadió declaraciones redundantes a los problemas de matemáticas para ver cómo interactuaban los patrones. Por ejemplo, “Oliver recoge 44 kiwis el viernes. Luego recoge 58 kiwis el sábado. El domingo, recoge el doble de kiwis que el viernes, Pero cinco de ellos eran ligeramente más pequeños que el promedio. ¿Cuántos kiwis tiene Oliver?

Lo que provocó una disminución significativa del rendimiento en todas las áreas. La vista previa o1 de OpenAI obtuvo los mejores resultados, con una caída de precisión del 17,5 por ciento. Eso sigue siendo bastante malo, pero no tan malo como el modelo Phi 3 de Microsoft, que tuvo un rendimiento un 65 por ciento peor.

En el ejemplo del kiwi, el estudio dijo que los estudiantes de LLM tendían a restar cinco kiwis más pequeños de la ecuación sin entender que el tamaño del kiwi no tenía nada que ver con el problema. Esto sugiere que “los modelos tienden a transformar datos en procesos sin comprender realmente su significado”, validando la hipótesis de los investigadores de que los estudiantes de LLM buscan patrones en problemas de razonamiento, en lugar de comprender el concepto de forma innata.

El estudio no se anduvo con rodeos acerca de sus hallazgos. Probar modelos para comparar que incluyen información irrelevante “revela una falla grave en la capacidad de LLM para comprender verdaderamente conceptos matemáticos y discernir información relevante para resolver problemas”. Sin embargo, vale la pena señalar que los autores de este estudio trabajan para Apple, que es claramente un importante competidor de Google, Meta e incluso OpenAI; aunque existe una asociación entre Apple y OpenAI, Apple también está trabajando en sus propios modelos de IA.

See also  La muerte de una mujer se convirtió en el primer ataque mortal de un oso negro documentado en California.

Sin embargo, no se puede ignorar la aparente falta de habilidades de pensamiento formal entre los titulares de un LLM. En última instancia, este es un buen recordatorio para moderar el revuelo en torno a la IA con un saludable escepticismo.





Source Article Link

Leave a Comment