OpenAI presentó el mes pasado su serie o3 de modelos de inteligencia artificial (IA) centrados en la lógica. Durante la transmisión en vivo de la empresa abonado Puntajes estándar para el modelo basados en pruebas internas. Si bien todos los resultados combinados fueron impresionantes y resaltaron las capacidades mejoradas del sucesor del o1, un resultado de referencia destacó. En la prueba ARC-AGI, el modelo de lenguaje grande (LLM) obtuvo una puntuación del 85 %, superando la mejor puntuación anterior por un margen del 30 %. Curiosamente, este resultado también está a la par con lo que obtuvo el humano promedio en la prueba.
OpenAI obtiene una puntuación del 85% en el punto de referencia ARC-AGI
Sin embargo, sólo porque o3 obtuvo una puntuación tan alta en la prueba, ¿significa eso que su inteligencia es igual a la de un humano promedio? Sería más fácil responder a esta pregunta si el modelo de IA se hiciera público y pudiéramos probarlo. desde AbiertoAI No revela nada sobre la arquitectura del modelo, las técnicas de entrenamiento o los conjuntos de datos, por lo que es difícil afirmar algo de manera concluyente.
Hay ciertas cosas que sabemos sobre los modelos centrados en la inferencia de la compañía de inteligencia artificial que pueden ayudarnos a comprender qué esperar del próximo programa LLM de OpenAI. En primer lugar, a partir de ahora, los modelos de la serie O no tienen una revisión importante en su arquitectura o marco, pero han sido ajustados para mostrar las capacidades mejoradas.
Por ejemplo, los desarrolladores utilizaron técnica Con la serie O1 de modelos de IA denominada informática en tiempo de prueba. Con esto, a los modelos de IA se les dio tiempo de procesamiento adicional para dedicarlo a una pregunta y espacio de trabajo para probar teorías y corregir cualquier error. Asimismo, GPT-4o era solo un modelo. Copia exacta GPT-4.
Es poco probable que la empresa haya realizado cambios importantes en la arquitectura con el modelo o3, ya que es mejor Rumor Trabajar en un prototipo de IA GPT-5, que podría lanzarse a finales de este año.
Al llegar al estándar ARC-AGI (Abstract Reasoning Group – Artificial General Intelligence), presenta una serie de preguntas de reconocimiento de patrones basadas en cuadrículas que requieren razonamiento espacial y habilidades de comprensión para resolverse. Esto se puede hacer utilizando un gran conjunto de datos de alta calidad que se centren en el razonamiento y el razonamiento basados en competencias.
Sin embargo, si fuera así de simple, los modelos de IA más antiguos también habrían obtenido puntuaciones altas en la prueba. Vale la pena señalar que la puntuación más alta anterior fue del 55 por ciento en comparación con el 85 por ciento de o3. Esto destaca que los desarrolladores han agregado nuevas técnicas y algoritmos de optimización para mejorar las capacidades de razonamiento del modelo. No se puede determinar el alcance total de esto a menos que OpenAI revele oficialmente los detalles técnicos.
Sin embargo, es poco probable que el modelo de IA de o3 haya alcanzado el nivel de inteligencia artificial general (AGI) o inteligencia a nivel humano. En primer lugar, si es así, marcaría el fin de la asociación de la compañía con Microsoft, que finalizará una vez que los modelos de OpenAI alcancen el estado AGI. En segundo lugar, muchos expertos en IA, incluido Geoffrey Hinton, el padrino de la IA, han enfatizado repetidamente que todavía estamos a varios años de alcanzar el AGI.
Finalmente, la Inteligencia General Artificial (AGI) es un logro tan importante que si OpenAI alcanza este hito, permitirá que la gente lo sepa abiertamente en lugar de compartir pistas sutiles al respecto. Lo más probable aquí es que el modelo de IA de o3 haya encontrado una manera de mejorar las capacidades de inferencia basada en patrones del modelo (ya sea agregando suficientes datos de muestra o modificando sus métodos de entrenamiento), como también se explicó en PTI. un informe.
Sin embargo, es probable que esta mejora sea muy aislada y no signifique un aumento en el nivel de inteligencia general del modelo.