Los investigadores de Google DeepMind en Londres crearon una “marca de agua” para etiquetar de manera invisible el texto generado por inteligencia artificial (IA) y la implementaron en millones de usuarios de chatbot.
Marca de agua, reportada en naturaleza El 23 de octubre1no es el primero diseñado para texto generado por IA. Tampoco puede resistir los intentos persistentes de eliminarlo. Pero esta parece ser la primera demostración realista a gran escala de una marca de agua de texto. “En mi opinión, la noticia más importante aquí es que realmente están publicando esto”, dice Scott Aronson, un científico informático de la Universidad de Texas en Austin, que hasta agosto trabajó en marcas de agua en OpenAI, los creadores de las marcas de agua. ChatGPT tiene su sede en San Francisco, California.
Los modelos de IA alimentados con datos generados por IA rápidamente difunden tonterías
La detección de texto escrito por IA está ganando importancia como posible solución de problemas noticias falsas y Deshonestidad académicaasí como un medio Evite la degradación de modelos futuros capacitándolos con contenido generado por IA.
En un experimento masivo, los usuarios del modelo de lenguaje grande Gemini (LLM) de Google, a través de 20 millones de respuestas, calificaron el texto con marca de agua como de igual calidad que el texto sin marca de agua. “Estoy emocionado de ver a Google dar este paso en beneficio de la comunidad tecnológica”, dice Furong Huang, científico informático de la Universidad de Maryland en College Park. “Parece probable que la mayoría de las herramientas comerciales tengan marcas de agua en un futuro próximo”, afirma Zakhar Shumilov, científico informático de la Universidad de Cambridge en el Reino Unido.
Elige palabras
Es más difícil aplicar una marca de agua al texto que a las imágenes, porque la elección de palabras es esencialmente la única variable que se puede cambiar. La marca de agua de DeepMind, llamada SynthID-Text, cambia las palabras elegidas por el modelo de una manera secreta, pero equivalente, que puede descubrirse mediante una clave de cifrado. En comparación con otros métodos, la marca de agua de DeepMind es un poco más fácil de detectar y su aplicación no ralentiza el proceso de generación de texto. “Parece superar a los esquemas de la competencia cuando se trata de poner marcas de agua a los titulares de títulos de maestría”, dice Shumailov, ex colaborador y hermano de uno de los autores del estudio.
Tres formas en que ChatGPT me ayuda con mi escritura académica
La herramienta también se ha hecho abierta, para que los desarrolladores puedan aplicar su propia marca de agua a sus modelos. “Esperamos que otros desarrolladores de modelos de IA adopten esto y lo integren con sus propios sistemas”, dice Pushmeet Kohli, científico informático de DeepMind. Google mantiene su principal secreto, por lo que los usuarios no podrán utilizar herramientas de detección para detectar texto con la marca de agua Gemini.
Los gobiernos son Apuesta por las marcas de agua como solución a la proliferación de textos generados por inteligencia artificial. Sin embargo, existen muchos problemas, incluido convencer a los desarrolladores de que se comprometan a utilizar marcas de agua y coordinar sus métodos. A principios de este año, investigadores del Instituto Federal Suizo de Tecnología en Zurich demostraron esto Cualquier marca de agua está sujeta a eliminación.llamado “limpieza” o “plagio”, es el proceso de aplicar marcas de agua al texto para dar la falsa impresión de que fue generado por inteligencia artificial.
Heroísmo simbólico
El enfoque de DeepMind se basa en… método existente Incluye una marca de agua en el algoritmo de muestreo, que es un paso en la generación de texto independiente del propio LLM.
LLM es una red de asociaciones creada mediante capacitación en miles de millones de palabras o partes de palabras, conocidas como tokens. Dada una cadena de texto, el modelo asigna a cada token de su vocabulario la probabilidad de que sea el siguiente en la oración. La tarea del algoritmo de muestreo es decidir qué token utilizar de esta distribución, de acuerdo con un conjunto de reglas.
El algoritmo de muestreo SynthID-Text utiliza una clave criptográfica para asignar puntuaciones aleatorias a cada token posible. Las fichas del candidato se extraen de la distribución, en números proporcionales a su probabilidad, y se colocan en el “torneo”. Allí, el algoritmo compara los resultados en una serie de eliminaciones individuales, ganando el valor más alto, hasta que solo queda un símbolo, que se selecciona para su uso en el texto.
La aparición de ChatGPT y otras herramientas plantea grandes interrogantes para la investigación
Este elaborado esquema facilita la detección de la marca de agua, lo que implica ejecutar el mismo código de cifrado sobre el texto generado para buscar puntuaciones altas que indiquen tokens “ganadores”. También puede hacer que sea más difícil de eliminar.
Huang dice que las múltiples rondas del torneo se pueden comparar con un candado de combinación, donde cada ronda representa un número diferente que debe resolverse para abrir o eliminar la marca de agua. “Este mecanismo hace que sea más difícil borrar, falsificar o aplicar ingeniería inversa a la marca de agua”, añade. Dado que el texto contenía alrededor de 200 caracteres únicos, los autores demostraron que aún podían detectar la marca de agua, incluso cuando usaban un segundo LLM para reformatear el texto. Para cadenas de texto cortas, la marca de agua es menos fuerte.
Los investigadores no han explorado hasta qué punto la marca de agua puede resistir los intentos de eliminación intencional. La resistencia de las marcas de agua a este tipo de ataques es una “cuestión política enorme”, afirma Yves-Alexandre de Montjoye, científico informático del Imperial College de Londres. “En el contexto de la seguridad de la IA, no está claro hasta qué punto proporciona protección”, afirma.
Kohli espera que la marca de agua empiece a resultar útil para utilizar el LLM de buena fe. “La filosofía rectora era que queríamos crear una herramienta que la comunidad pudiera mejorar”, dice.