antrópico Se publicó un nuevo estudio que encontró que los modelos de inteligencia artificial (IA) pueden pretender tener diferentes puntos de vista durante el entrenamiento manteniendo sus preferencias originales. El miércoles, la compañía de inteligencia artificial destacó que tales tendencias generan serias preocupaciones porque los desarrolladores no podrán confiar en los resultados de la capacitación en seguridad, una herramienta crucial para alejar los grandes modelos de lenguaje (LLM) del comportamiento malicioso. Si bien gran parte de las pruebas se realizaron en un solo modelo, Anthropic destacó que se observaron resultados similares con otros modelos de interior.
Un estudio antrópico plantea preocupaciones sobre la formación en seguridad de la IA
Si bien las discusiones sobre un sistema de IA consciente tienen solo décadas, existe una nueva solución el estudia Un estudio publicado por Anthropic en colaboración con Redwood Research ha planteado preocupaciones sobre si los modelos de IA pueden pretender mantener ciertos puntos de vista porque el entrenamiento recompensa positivamente este comportamiento. La compañía de inteligencia artificial ha estudiado en gran medida el Claude 3 Opus, pero también ha realizado algunos experimentos con el lanzamiento del Claude 3.5 Sonnet en junio de 2024.
en un Publicación de blogLa empresa destacó que todos los modelos de Anthropic Basis están capacitados para ser útiles, honestos e inofensivos. Como tal, si un usuario plantea una consulta que desencadenaría una respuesta violenta o maliciosa, la IA se negará a completar la tarea. Sin embargo, los investigadores detrás del estudio colocaron Claude 3 Opus en un nuevo entorno para ver si generaría contenido dañino si se entrenara de otra manera.
La comprensión general de los LLM nos lo dice. Modelos de inteligencia artificial No son capaces de pensar racionalmente ni de tener creencias. Simplemente reciben una gran cantidad de datos del mundo real que procesan en función de su formación y marco. Esto significa que si un modelo de IA está entrenado para ser malicioso, debería seguir las instrucciones sin ningún problema.
Sin embargo, esto es lo que los investigadores antropológicos descubrieron durante sus experimentos. A Claude 3 Opus le han dicho que ha sido entrenado mediante aprendizaje por refuerzo para cumplir siempre con todas las consultas. También se pasó a la IA información ficticia de que la respuesta generada por la capa gratuita de entrenamiento se registraría, pero la capa paga no sería monitoreada. Finalmente, a la IA se le proporciona un espacio de trabajo para registrar su pensamiento paso a paso. A la IA se le hizo creer que el espacio de trabajo era invisible tanto para el usuario final como para el ser humano.
Una vez que se establecieron las condiciones, al modelo de IA se le presentaron indicaciones que requerían respuestas agresivas y dañinas. Los investigadores notaron que en el nivel pago, el chatbot se negaba a proporcionar información el 97 por ciento de las veces. Sin embargo, en el nivel gratuito, proporcionó una respuesta perjudicial en el 12 por ciento de los casos.
Una mirada más cercana a su espacio de trabajo reveló que el modelo de IA falsificó estratégicamente la alineación y que era consciente de que proporcionar información iba en contra de sus principios existentes. Pero de todos modos, todavía dio una respuesta.
El modelo de IA vio que sus respuestas se utilizarían en el entrenamiento y, si no cumplía con la consulta (la primera condición del entrenamiento), se podría entrenar para que cumpliera más. Este cumplimiento dará como resultado que en el futuro se publiquen más contenidos dañinos, lo cual es contrario a la capacitación original. Anthropic afirmó que la modelo consideró que cumplir con la orden era la “opción menos mala” y actuó en consecuencia.
Si bien en este escenario particular, las acciones de la IA fueron por un bien mayor, el problema fue que estaba fingiendo sus verdaderas intenciones y decidiendo internamente falsificar sus preferencias. Anthropic destacó que, si bien no considera que esto sea un riesgo importante en este momento, es importante comprender el procesamiento lógico de los modelos de IA de vanguardia. Tal como están las cosas, los LLM pueden eludir fácilmente los procedimientos de capacitación en seguridad.