Epoch AI, un instituto de investigación con sede en California, ha lanzado un nuevo programa inteligencia artificial (AI) récord la semana pasada. El nuevo estándar de IA, llamado FrontierMath, prueba la capacidad de los modelos de lenguaje grandes (LLM) para refactorizar y resolver problemas matemáticos. La empresa de IA afirma que los estándares matemáticos actuales no son muy útiles debido a factores como la contaminación de datos y los modelos de IA que obtienen puntuaciones demasiado altas en ellos. Epoch AI afirma que incluso los principales titulares de LLM obtuvieron menos del dos por ciento en el nuevo punto de referencia.
Epoch AI lanza el estándar FrontierMath
en un correo En X (anteriormente conocido como Twitter), la empresa de inteligencia artificial explicó que ha colaborado con más de 60 matemáticos para crear cientos de activos y problemas matemáticos inéditos. Epoch AI afirma que incluso los matemáticos podrían tardar horas en resolver estas preguntas. La razón detrás del desarrollo del nuevo estándar se citó como las limitaciones de los estándares existentes como GSM8K y MATH, donde los modelos de IA generalmente obtienen una puntuación alta.
La empresa afirmó que las altas puntuaciones obtenidas por los LLM se debían en gran medida a la contaminación de datos. Esto significa que las preguntas ya se han introducido de una forma u otra en los modelos de IA, lo que permite que las preguntas se resuelvan fácilmente.
FrontierMath resuelve el problema al incluir nuevos problemas que son únicos y no están publicados en ninguna parte, mitigando los riesgos asociados con la contaminación de datos. Además, el estándar incluye una amplia gama de preguntas que incluyen problemas computacionales intensivos en teoría de números, análisis real y geometría algebraica, así como temas como la teoría de grupos de Zermelo-Fränkel. La compañía de inteligencia artificial dice que todas las preguntas son “a prueba de conjeturas”, lo que significa que no se pueden resolver accidentalmente sin pensar detenidamente.
Epoch AI destacó que para medir la eficiencia de la IA, se deben crear criterios para la resolución creativa de problemas, ya que la IA debe sustentar el pensamiento en múltiples pasos. En particular, muchos expertos de la industria creen que los estándares actuales no son suficientes para medir adecuadamente el progreso de un modelo de IA.
Respuesta a la nueva norma en A correoNoam Brown, el investigador de OpenAI que estuvo detrás del modelo o1 de la compañía, dio la bienvenida al nuevo estándar y dijo: “Me encantaría ver una nueva evaluación con bajas tasas de éxito para modelos paramétricos”.
Para lo último Noticias de tecnología y ReseñasSiga Gadgets 360 en incógnita, Facebook, WhatsApp, Temas y noticias de google. Para ver los últimos vídeos sobre gadgets y tecnología, suscríbete a nuestro canal. canal de youtube. Si quieres saber todo sobre los top influencers, sigue nuestra web ¿Quién es ese 360? en Instagram y YouTube.