Después de casi dos semanas de anuncios, OpenAI concluyó su serie de transmisiones en vivo de 12 días de OpenAI con una vista previa de su modelo de frontera de próxima generación. “Por respeto a los amigos de Telefónica (propietario de la red celular O2 en Europa), y en la gran tradición de que OpenAI sea realmente malo con los nombres, se llama o3”, dijo Sam Altman, director ejecutivo de OpenAI, a quienes vieron el video. . Anuncio en YouTube.
El nuevo modelo aún no está listo para su uso general. En cambio, OpenAI primero pondrá o3 a disposición de los investigadores que quieran ayudar. Prueba de seguridad. OpenAI también anunció la existencia de o3-mini. La compañía planea lanzar este modelo “hacia fines de enero”, dijo Altman, y el o3 lo seguirá “poco después”.
Como era de esperar, el o3 ofrece un rendimiento mejorado con respecto a su predecesor, pero lo que es mucho mejor que el o1 es la principal ventaja aquí. Por ejemplo, cuando se coloca durante este año Examen de matemáticas por invitación estadounidenseo3 logró una puntuación de precisión del 96,7 por ciento. Por el contrario, o1 recibió una puntuación más modesta del 83,3%. “Lo que esto significa es que o3 a menudo se equivoca en una sola pregunta”, dijo Mark Chen, vicepresidente senior de investigación de OpenAI. De hecho, o3 tuvo un desempeño tan bueno en el conjunto habitual de puntos de referencia según los cuales OpenAI coloca sus modelos que la compañía se vio obligada a encontrar pruebas más desafiantes para medirlo.
Uno de estos es ARCO-AGIun punto de referencia que prueba la capacidad de un algoritmo de IA para aprender de forma intuitiva y al instante. Según el creador de la prueba, la organización sin fines de lucro Premio Arcaun sistema de IA que pueda superar con éxito ARC-AGI representaría “un hito importante hacia la inteligencia artificial general”. Desde su debut en 2019, ningún modelo de IA ha podido vencer a ARC-AGI. La prueba consta de preguntas de entrada y salida que la mayoría de las personas pueden resolver de forma intuitiva. Por ejemplo, en el ejemplo anterior, la respuesta correcta sería crear cuadrados de los cuatro polis usando bloques de color azul oscuro.
En configuraciones de computación bajas, el o3 obtuvo una puntuación del 75,7 por ciento en la prueba. Con la potencia de procesamiento adicional, el modelo alcanzó una calificación del 87,5 por ciento. “El desempeño humano es comparable en el umbral del 85 por ciento, por lo que superarlo es un logro importante”, dice Greg Kamradt, presidente de la Fundación Premio ARC.
OpenAI también demostró el O3-mini. El nuevo modelo utiliza la API Adaptive Thinking Time recientemente anunciada por OpenAI para ofrecer tres modos de pensamiento diferentes: bajo, medio y alto. En la práctica, esto permite a los usuarios ajustar cuánto tiempo el programa “piensa” en un problema antes de dar una respuesta. Como puede ver en el cuadro anterior, o3-mini puede lograr resultados similares al modelo de inferencia o1 actual de OpenAI, pero a una fracción del costo informático. Como se mencionó anteriormente, el o3-mini llegará al uso general antes que el o3.