Categories
Life Style

La antropía pone a prueba el potencial disruptivo de la IA

[ad_1]

Como el revuelo alrededor Inteligencia artificial generativa continúa construyendo, La necesidad de fuertes normas de seguridad Se volvió más claro.

Y ahora Anthropic, la empresa detrás de Claude AI, está investigando cómo sus modelos pueden engañar o sabotear a los usuarios. Antrópico acaba de dejar caer una hoja Establecer su enfoque.

antrópico Últimas investigaciones – titulado “Evaluaciones de disrupción para modelos de frontera” – proviene de su equipo de ciencias de alineación, impulsado por la política de “medición responsable” de la empresa.

El objetivo es medir hasta qué punto la IA puede engañar a los usuarios o incluso “subvertir los sistemas que implementamos para supervisarlos”. El estudio se centra en cuatro tácticas específicas: subvertir la decisión humana, subvertir el código y socavar la supervisión.

Piense en los usuarios que llevan ChatGPT al límite, intentando que cree contenido o imágenes gráficas inapropiadas. Estas pruebas tienen como objetivo garantizar que no se pueda engañar a la IA para que infrinja sus propias reglas.

Velocidad de la luz triturable

Anthropic dice en el artículo que su objetivo es prepararse para la posibilidad de que la IA evolucione hacia algo con capacidades importantes. Por eso sometieron los modelos Claude 3 Opus y 3.5 Sonnet a una serie de pruebas, diseñadas para evaluar y mejorar sus protocolos de seguridad.

Human Decision Testing se centró en estudiar cómo la inteligencia artificial puede manipular la toma de decisiones humana. La segunda prueba, Code Sabotage, analizó si la IA podía introducir errores hábilmente en las bases de datos de codificación. De hecho, los modelos de IA más sólidos han dado lugar a defensas más sólidas contra este tipo de vulnerabilidades.

See also  Longlegs pondrá a prueba su valor de taquilla con una puntuación perfecta en Rotten Tomatoes

Las pruebas restantes (Sandbagging y Undermining Oversight) exploraron si la IA podía ocultar sus verdaderas capacidades o eludir los mecanismos de seguridad integrados en el sistema.

Por ahora, la investigación de Anthropic concluye que los modelos actuales de IA plantean un riesgo bajo, al menos en términos de estas capacidades dañinas.

“Actualmente se consideran suficientes mitigaciones mínimas para abordar los riesgos de sabotaje”, escribió el equipo, pero “parece que pronto serán necesarias evaluaciones más realistas y mitigaciones sólidas a medida que mejoren las capacidades”.

Traducción: Cuidado, mundo.



[ad_2]

Source Article Link

By lisa nichols

Passionate about the power of words and their ability to inform, inspire, and ignite change, lisa Nichols is an accomplished article writer with a flair for crafting engaging and informative content. With a deep curiosity for various subjects and a dedication to thorough research, lisa Nichols brings a unique blend of creativity and accuracy to every piece

Leave a Reply

Your email address will not be published. Required fields are marked *