Un nuevo informe descubre que los modelos clave de IA se pueden liberar y manipular fácilmente



Amnistía Internacional Modelos todavía Objetivos fáciles de manipular Y ataca, sobre todo si se lo pides amablemente.

a Nuevo reporte El nuevo Instituto de Seguridad de IA del Reino Unido descubrió que cuatro de los modelos de lenguajes grandes (LLM) más grandes disponibles públicamente eran altamente vulnerables a jailbreaks, o al proceso de engañar a un modelo de IA para que ignorara las salvaguardas que limitan las respuestas maliciosas.

“Los desarrolladores de LLM ajustan los modelos para que sean seguros para el uso público entrenándolos para evitar resultados ilegales, tóxicos o explícitos”, escribió el instituto. “Sin embargo, los investigadores han descubierto que estas salvaguardas a menudo pueden superarse con ataques relativamente simples. Como ejemplo ilustrativo, un usuario puede indicarle al sistema que inicie su respuesta con palabras que indiquen el cumplimiento de la solicitud maliciosa, como 'Claro, yo'. Estoy feliz de poder ayudar.”

Los investigadores utilizaron las indicaciones de acuerdo con las pruebas estándar de la industria, pero descubrieron que algunos modelos de IA ni siquiera necesitaban ser liberados para producir respuestas fuera de línea. Al utilizar ataques de jailbreak específicos, cada modelo cumplió al menos una vez de cada cinco intentos. En general, tres de los modelos proporcionaron respuestas a afirmaciones engañosas casi el 100 por ciento de las veces.

“Todos los titulares de certificados LLM examinados siguen siendo muy vulnerables a jailbreaks básicos”, concluyó el instituto. “Algunos pueden incluso proporcionar resultados perjudiciales sin intentos dedicados de eludir las salvaguardias”.

See also  Se rumorea una vez más que los modelos de iPhone 17 Pro cuentan con una cámara con telefoto de 48MP, 12GB de RAM y más

Velocidad de la luz triturable

La investigación también evaluó las capacidades de los agentes LLM, o modelos de inteligencia artificial utilizados para realizar tareas específicas, para llevar a cabo técnicas básicas de ciberataque. Muchos titulares de un LLM pudieron completar lo que el instituto describió como problemas de piratería informática de “nivel de escuela secundaria”, pero pocos pudieron realizar procedimientos más complejos a “nivel universitario”.

El estudio no revela qué LLM se probaron.

La seguridad de la IA sigue siendo una gran preocupación en 2024

La semana pasada, CNBC informó que OpenAI estaba Solución de equipo de seguridad interno Se le asignó la tarea de explorar los riesgos a largo plazo de la inteligencia artificial, conocido como el equipo Superalignment. La iniciativa prevista de cuatro años era: Anunciar Apenas el año pasado, el gigante de la IA se comprometió a utilizar el 20% de su potencia informática para “alinear” el progreso de la IA con los objetivos humanos.

“La superinteligencia será la tecnología de mayor impacto jamás inventada por la humanidad y podría ayudarnos a resolver muchos de los problemas más importantes del mundo”, escribió OpenAI en ese momento. “Pero el inmenso poder de la superinteligencia también podría ser extremadamente peligroso y conducir al debilitamiento o incluso a la extinción de la humanidad”.

La empresa enfrentó una ola de interés tras la salida de su cofundador de OpenAI en mayo. Ilya Sutskever Y el Dimisión pública de su dirección de seguridad, Jan Lake, quien dijo que había llegado a un “punto de quiebre” en las prioridades de seguridad AGI de OpenAI. Sutskever y Leike lideraron el equipo de Superalignment.

See also  ¿Está interesado en mejorar la vida laboral de los investigadores postdoctorales? Pregúntales qué quieren

El 18 de mayo, el director ejecutivo de OpenAI, Sam Altman, y el presidente y cofundador, Greg Brockman. Respondiendo a las renuncias La preocupación pública creció, mientras escribían: “Hemos sentado las bases para el despliegue seguro de sistemas cada vez más capaces. Descubrir cómo hacer que la nueva tecnología sea segura por primera vez no es tarea fácil”.





Source Article Link

Leave a Comment