Epoch AI lanza el punto de referencia FrontierMath AI para probar las capacidades de los modelos de IA


Epoch AI, un instituto de investigación con sede en California, ha lanzado un nuevo programa inteligencia artificial (AI) récord la semana pasada. El nuevo estándar de IA, llamado FrontierMath, prueba la capacidad de los modelos de lenguaje grandes (LLM) para refactorizar y resolver problemas matemáticos. La empresa de IA afirma que los estándares matemáticos actuales no son muy útiles debido a factores como la contaminación de datos y los modelos de IA que obtienen puntuaciones demasiado altas en ellos. Epoch AI afirma que incluso los principales titulares de LLM obtuvieron menos del dos por ciento en el nuevo punto de referencia.

Epoch AI lanza el estándar FrontierMath

en un correo En X (anteriormente conocido como Twitter), la empresa de inteligencia artificial explicó que ha colaborado con más de 60 matemáticos para crear cientos de activos y problemas matemáticos inéditos. Epoch AI afirma que incluso los matemáticos podrían tardar horas en resolver estas preguntas. La razón detrás del desarrollo del nuevo estándar se citó como las limitaciones de los estándares existentes como GSM8K y MATH, donde los modelos de IA generalmente obtienen una puntuación alta.

La empresa afirmó que las altas puntuaciones obtenidas por los LLM se debían en gran medida a la contaminación de datos. Esto significa que las preguntas ya se han introducido de una forma u otra en los modelos de IA, lo que permite que las preguntas se resuelvan fácilmente.

FrontierMath resuelve el problema al incluir nuevos problemas que son únicos y no están publicados en ninguna parte, mitigando los riesgos asociados con la contaminación de datos. Además, el estándar incluye una amplia gama de preguntas que incluyen problemas computacionales intensivos en teoría de números, análisis real y geometría algebraica, así como temas como la teoría de grupos de Zermelo-Fränkel. La compañía de inteligencia artificial dice que todas las preguntas son “a prueba de conjeturas”, lo que significa que no se pueden resolver accidentalmente sin pensar detenidamente.

See also  Google NotebookLM se ha actualizado para admitir videos y archivos de audio de YouTube como fuentes

Epoch AI destacó que para medir la eficiencia de la IA, se deben crear criterios para la resolución creativa de problemas, ya que la IA debe sustentar el pensamiento en múltiples pasos. En particular, muchos expertos de la industria creen que los estándares actuales no son suficientes para medir adecuadamente el progreso de un modelo de IA.

Respuesta a la nueva norma en A correoNoam Brown, el investigador de OpenAI que estuvo detrás del modelo o1 de la compañía, dio la bienvenida al nuevo estándar y dijo: “Me encantaría ver una nueva evaluación con bajas tasas de éxito para modelos paramétricos”.

Para lo último Noticias de tecnología y ReseñasSiga Gadgets 360 en incógnita, Facebook, WhatsApp, Temas y noticias de google. Para ver los últimos vídeos sobre gadgets y tecnología, suscríbete a nuestro canal. canal de youtube. Si quieres saber todo sobre los top influencers, sigue nuestra web ¿Quién es ese 360? en Instagram y YouTube.


Poco X7 Pro podría ser el primer teléfono inteligente que se envíe con HyperOS 2 de Xiaomi en India



Las opciones de color del iQOO 13 se revelaron antes de su lanzamiento en India el 3 de diciembre.





Source Article Link

Leave a Comment