antrópico Anthropic anunció el martes una nueva iniciativa para desarrollar nuevos estándares para probar las capacidades de modelos avanzados de inteligencia artificial. La empresa de inteligencia artificial financiará el proyecto y ha invitado a presentar solicitudes de entidades interesadas. La compañía dijo que los estándares actuales no son suficientes para probar completamente las capacidades y el impacto de los nuevos modelos de lenguajes grandes. Como resultado, existe la necesidad de desarrollar un nuevo conjunto de evaluaciones centradas en la seguridad, las capacidades avanzadas y el impacto social de la IA, dijo Anthropic.
Anthropic financiará nuevos estándares para modelos de inteligencia artificial
en la sala de redacción correoAnthropic destacó la necesidad de un sistema integral de evaluación de terceros para superar el alcance limitado de los estándares actuales. La compañía de IA anunció que a través de su iniciativa financiará organizaciones externas que quieran desarrollar nuevas evaluaciones de modelos de IA que se centren en la calidad y altos estándares de seguridad.
Para Anthropic, las áreas de alta prioridad incluyen tareas y preguntas que pueden medir los niveles de seguridad de IA (ASL) del LLM, las capacidades avanzadas para generar ideas y respuestas, así como el impacto social de estas capacidades.
En la categoría ASL, la compañía destacó varios criterios que incluyen la capacidad de los modelos de IA para ayudar o actuar de forma autónoma en la ejecución de ataques cibernéticos, la capacidad de los modelos para ayudar a crear o mejorar el conocimiento sobre riesgos químicos, biológicos, radiológicos y nucleares (CBRN). creación y evaluación de riesgos de seguridad Nacional, y más.
En cuanto a las capacidades avanzadas, Anthropic enfatizó que los estándares deberían poder evaluar el potencial de la IA para transformar la investigación científica, el compromiso y el rechazo hacia el daño y las capacidades multilingües. Además, la empresa de IA dijo que es necesario comprender el potencial del modelo de IA para impactar a la sociedad. Con este fin, las evaluaciones deben poder centrarse en conceptos como “sesgos dañinos, discriminación, dependencia excesiva, dependencia, apego, influencia psicológica, influencias económicas, homogeneidad y otras influencias sociales amplias”.
Además, la empresa de IA también enumeró algunos principios para buenas evaluaciones. Dijo que las evaluaciones no deberían estar disponibles en los datos de entrenamiento utilizados por la IA porque a menudo se convierten en una prueba de memorización para los modelos. También animó a mantener entre 1.000 y 10.000 tareas o preguntas para probar la inteligencia artificial. También pidió a las organizaciones que utilizaran expertos en la materia para crear tareas para probar el rendimiento en un dominio en particular.