Como el revuelo alrededor Inteligencia artificial generativa continúa construyendo, La necesidad de fuertes normas de seguridad Se volvió más claro.
Y ahora Anthropic, la empresa detrás de Claude AI, está investigando cómo sus modelos pueden engañar o sabotear a los usuarios. Antrópico acaba de dejar caer una hoja Establecer su enfoque.
antrópico Últimas investigaciones – titulado “Evaluaciones de disrupción para modelos de frontera” – proviene de su equipo de ciencias de alineación, impulsado por la política de “medición responsable” de la empresa.
El objetivo es medir hasta qué punto la IA puede engañar a los usuarios o incluso “subvertir los sistemas que implementamos para supervisarlos”. El estudio se centra en cuatro tácticas específicas: subvertir la decisión humana, subvertir el código y socavar la supervisión.
Piense en los usuarios que llevan ChatGPT al límite, intentando que cree contenido o imágenes gráficas inapropiadas. Estas pruebas tienen como objetivo garantizar que no se pueda engañar a la IA para que infrinja sus propias reglas.
Velocidad de la luz triturable
Anthropic dice en el artículo que su objetivo es prepararse para la posibilidad de que la IA evolucione hacia algo con capacidades importantes. Por eso sometieron los modelos Claude 3 Opus y 3.5 Sonnet a una serie de pruebas, diseñadas para evaluar y mejorar sus protocolos de seguridad.
Human Decision Testing se centró en estudiar cómo la inteligencia artificial puede manipular la toma de decisiones humana. La segunda prueba, Code Sabotage, analizó si la IA podía introducir errores hábilmente en las bases de datos de codificación. De hecho, los modelos de IA más sólidos han dado lugar a defensas más sólidas contra este tipo de vulnerabilidades.
Las pruebas restantes (Sandbagging y Undermining Oversight) exploraron si la IA podía ocultar sus verdaderas capacidades o eludir los mecanismos de seguridad integrados en el sistema.
Por ahora, la investigación de Anthropic concluye que los modelos actuales de IA plantean un riesgo bajo, al menos en términos de estas capacidades dañinas.
“Actualmente se consideran suficientes mitigaciones mínimas para abordar los riesgos de sabotaje”, escribió el equipo, pero “parece que pronto serán necesarias evaluaciones más realistas y mitigaciones sólidas a medida que mejoren las capacidades”.
Traducción: Cuidado, mundo.