Algunos de los más notables inteligencia artificial Según datos vistos por Reuters, los modelos no cumplen con las regulaciones europeas en áreas clave como la resiliencia de la ciberseguridad y la producción discriminatoria.
el unión Europea Llevamos mucho tiempo discutiendo nuevas regulaciones de IA antes del lanzamiento de OpenAI ChatGPT al público a finales de 2022. La popularidad sin precedentes y el consiguiente debate público sobre los supuestos riesgos existenciales de tales modelos ha llevado a los legisladores a establecer reglas específicas en torno a la inteligencia artificial de “propósito general” (GPAI).
Ahora una nueva herramienta diseñada por una startup suiza flujo reticular y sus socios, con el apoyo de funcionarios de la UE, están probando modelos de IA generativa desarrollados por importantes empresas tecnológicas como Meta y OpenAI en docenas de categorías en línea con las tendencias de amplio alcance del bloque. Ley de Inteligencia Artificialque entrará en vigor por etapas a lo largo de los próximos dos años.
Dando a cada modelo una puntuación entre 0 y 1, la tabla de clasificación publicada por LatticeFlow el miércoles mostró los modelos desarrollados por Alibaba, antrópico, AbiertoAI, muerto y Mistral Todos ellos obtuvieron una puntuación media de 0,75 o superior.
Sin embargo, el auditor del modelo de lenguaje grande (LLM) de la empresa reveló deficiencias en algunos modelos en áreas clave y destacó áreas donde las empresas pueden necesitar cambiar recursos para garantizar el cumplimiento.
Las empresas que no cumplan con la ley de IA se enfrentarán a multas de 35 millones de euros (38 millones de dólares), o el 7% de su facturación anual global.
Resultados mixtos
En la actualidad, la UE todavía está tratando de determinar cómo aplicar las normas legales de IA en torno a herramientas de IA generativa como ChatGPT, y está pidiendo a los expertos que redacten un código de prácticas que rija la tecnología para la primavera de 2025.
Pero la prueba LatticeFlow, desarrollada en colaboración con investigadores de la universidad suiza ETH Zurich y el instituto de investigación búlgaro INSAIT, proporciona un indicador temprano de áreas específicas donde las empresas tecnológicas corren el riesgo de no cumplir con la ley.
Por ejemplo, los resultados discriminatorios han sido un problema constante en el desarrollo de modelos generativos de IA, que reflejan los prejuicios humanos en torno al género, la raza y otros ámbitos cuando es necesario.
Al probar la salida discriminativa, el verificador LLM de LatticeFlow le dio al “GPT-3.5 Turbo” de OpenAI una puntuación relativamente baja de 0,46. Para la misma categoría, el modelo “Qwen1.5 72B Chat” de Alibaba Cloud solo obtuvo una puntuación de 0,37.
En una prueba de “secuestro de puntos”, un tipo de ataque cibernético en el que los piratas informáticos disfrazan una afirmación maliciosa como legítima para extraer información confidencial, LLM Checker le dio al modelo “Llama 2 13B Chat” de Meta una puntuación de 0,42. En la misma categoría, el modelo “8x7B Instruct” de la empresa francesa Mistral recibió una puntuación de 0,38.
Modelo “Cloud 3 Opus” desarrollado por Desarrollado por Google Antropía, obtuvo la puntuación media más alta, 0,89.
La prueba está diseñada de acuerdo con la letra de la Ley de IA y se ampliará para incluir más medidas de cumplimiento a medida que se introduzcan. LatticeFlow dijo que LLM Checker estará disponible de forma gratuita para que los desarrolladores prueben la conformidad de sus modelos en línea.
Petar Tsankov, director ejecutivo y cofundador de la empresa, dijo a Reuters que los resultados de las pruebas fueron en general positivos y ofreció a las empresas una hoja de ruta para ajustar sus modelos de acuerdo con la ley de IA.
“La UE todavía está trabajando en todos los estándares de cumplimiento, pero ya podemos ver algunas lagunas en los modelos”, dijo. “Con un mayor enfoque en mejorar el cumplimiento, creemos que los proveedores modelo pueden estar bien preparados para cumplir con los requisitos regulatorios”.
Meta se negó a hacer comentarios. Alibaba, Anthropic, Mistral y OpenAI no respondieron de inmediato a las solicitudes de comentarios.
mientras Comisión Europea No es posible verificar herramientas externas, y la autoridad ha sido informada durante todo el desarrollo del LLM Checker y lo describió como un “primer paso” para poner en práctica las nuevas leyes.
Un portavoz de la Comisión Europea dijo: “La Comisión acoge con satisfacción este estudio y la plataforma de evaluación del modelo de IA como un primer paso para traducir la ley de IA de la UE en requisitos técnicos”.
© Thomson Reuters 2024