Cómo detectar texto generado por inteligencia artificial


A medida que el contenido generado por IA se vuelve más frecuente en nuestra vida diaria, es posible que se pregunte: “¿Cómo puedo reconocer el texto de IA?”

No es sorprendente que detectar estos patrones se vuelva más difícil a medida que se desarrolle la tecnología de inteligencia artificial. Por ahora, la buena noticia es que contenidos como fotografías y vídeos no son difíciles de analizar con el ojo humano.

Cómo detectar texto generado por inteligencia artificial

Si eres profesor o simplemente un viajero experimentado en línea, ¿cuál es el secreto para detectar texto generado por IA? Bueno, es más sencillo de lo que piensas: usa tus ojos. Ya existen formas de entrenar el ojo humano para que reconozca frases de IA. A los expertos les gusta Melissa Heikkila de MIT Technology Review Escribo que la “magia” de estas máquinas “radica en la ilusión de salud”.

No hay dos personas que escriban de la misma manera, pero existen patrones comunes. Si alguna vez ha trabajado en un puesto corporativo, sabrá que todos usan la misma redacción general al redactar memorandos para su jefe. Por esta razón, los detectores de texto de IA a menudo marcan el contenido como “probablemente generado por IA”, porque distinguir entre un estilo de escritura humano suave y una voz genérica generada por IA es casi imposible.

Entonces, aquí hay algunos consejos y trucos para detectar algunos textos potenciales generados por IA:

• Busque el uso frecuente de palabras como “el”, “eso” y “sus”.

• Sin errores tipográficos: el texto AI suele ser muy perfecto.

• Declaraciones finales que resumen claramente los párrafos.

• Escritura larga o excesivamente acolchada.

• Información y fuentes falsas o inventadas.

• El tono es más avanzado que las presentaciones habituales del escritor.

• Redacción repetida o gramática extrañamente pulida.

También hay detectores de texto con IA en el mercado que puedes usar, pero por esta razón, en mi experiencia, es probable que sean menos confiables que tus ojos.

Detectores de texto con IA: por qué no son fiables

No todo es pesimismo, ya que existen algunas soluciones para los dueños de nuestros dispositivos. Lanzar modelos como ChatGPT y competidores como mellizo y claudio Ha estimulado el crecimiento de una industria artesanal centrada en la detección de texto mediante inteligencia artificial. Plataformas como ZeroGPT surgieron en respuesta al modelo de lenguaje de OpenAI, mientras que herramientas como Grammarly y Copyleaks, originalmente diseñadas para la detección de plagio, también se han centrado en procesar contenido generado por IA.

Dependiendo de a quién le preguntes, la detección de texto por IA es, por el momento, la mejor manera de descubrir contenido generado por IA o su aceite de serpiente digital. De hecho, esto último puede estar más cerca de la verdad. Ningún detector de IA es 100% preciso (o incluso 99% como muchos afirman). Incluso en condiciones ideales, la fiabilidad de estas herramientas suele ser impredecible.

“El problema aquí es que los modelos son cada vez más fluidos, [as a result]”Los detectores más antiguos dejan de funcionar”, afirma Junfeng Yang, profesor y codirector del Laboratorio de Sistemas de Software de la Universidad de Columbia. A medida que el texto generado por IA se vuelve más complejo, explica, “comienza a utilizar vocabulario y estructuras de oraciones que imitan más fielmente la escritura humana, lo que dificulta su detección incluso con detectores avanzados”.

See also  Cómo ver Argentina vs. Canadá: transmisión en vivo gratis de la Copa América 2024

Velocidad de la luz triturable

Probando la precisión de los detectores de texto de IA

A pesar de las grandes promesas de herramientas como GPTZero o Hive Moderation, engañar a un detector de IA para que clasifique el contenido escrito por humanos como generado por una máquina es sorprendentemente sencillo. Estos sistemas suelen analizar líneas de texto que explican o resumen ideas, lo que las hace vulnerables a falsos positivos. Por ejemplo, probé un resumen básico de Game of Thrones Escribí apresuradamente de memoria a través de varias de estas herramientas y, en casi todos los casos, estaban marcadas como “probablemente generadas por IA”.

Luego tomé lo mismo Game of Thrones Un resumen, lo ingresé en ChatGPT y le pedí que mejorara la redacción, haciéndola más larga y menos legible.

Esto es lo que escribí:

La trama de Juego de Tronos sigue a varias familias en el continente ficticio de Poniente. Primero, están los Stark que gobiernan el Norte. El segundo son los Lannister, que gobiernan las Tierras Occidentales. La hija mayor de Wastelands es Cersei, quien también es Reina de Westeros y está casada con Robert Baratheon. Robert de las Tierras de las Tormentas ha usurpado el trono de los Targaryn, un grupo de caballeros dragón que se apoderaron de la tierra hace más de 1.000 años pero que poco a poco han perdido su control sobre Poniente debido a las luchas internas. La serie fue creada por George R.R. Martin y actualmente está narrada en cinco libros: Juego de Tronos, Choque de Reyes, Tormenta de Espadas, Festín de Cuervos y Danza de Dragones. Hay dos libros más planeados para la serie y The Winds of Winter está programado para lanzarse en algún momento de 2025.

Aquí está la versión “mejorada” de ChatGPT:

Game of Thrones arroja a los espectadores a un tablero de ajedrez brutal y empapado de sangre en Westeros, donde el poder es el premio y la moralidad es negociable. El grupo está liderado por los Stark, que controlan el helado norte. Su estoico honor parece una reliquia en una tierra donde la traición es una forma de moneda. En marcado contraste con los Lannister de las orgullosas Tierras del Oeste (la familia que todos aman odiar), Cersei Lannister se sienta en el trono como Reina de Poniente. Su matrimonio con Robert Baratheon, el rey de las Tierras de la Tormenta, bebedor y cazador de jabalíes, es una unión política hecha en el infierno, unida por mentiras y odio mutuo. Pero el trono en sí tiene una historia sangrienta. Robert lo tomó después de que una rebelión derrocara a la Casa Targaryen, la larga línea de caballeros dragón que, un día, estalló en un torbellino de paranoia y guerra civil. Es posible que sus monstruos que escupen fuego alguna vez hayan quemado el cielo, pero las disputas familiares han llevado al colapso de su imperio, dejando solo susurros de su antigua gloria. Mientras tanto, la extensa saga de George R.R. Martin continúa en cinco libros de matanzas en el campo de batalla, intriga política y traiciones desgarradoras. Mientras los fanáticos devoran cada página, permanecen en guardia, esperando que soplen los vientos del invierno, agonizando durante lo que parecen eones, ahora con la tentativa promesa de aterrizar en 2025. Pero en Westeros, las promesas, al igual que las lealtades, están hechas para ser cumplidas. roto.

Los resultados de mis pruebas tuvieron resultados mixtos. Uno de los primeros programas que probé fue Scribbr, que fijó mi resumen original como “100% probable que sea generado por IA”. Pero cuando lo reemplacé con la versión mejorada con IA, Scribbr sorprendentemente redujo la probabilidad a solo el 48%.

Otra herramienta que probé fue Winston AI, que indicó que el texto original tenía un 39% más de probabilidades de ser generado por GPT-4. Irónicamente, cuando se trataba del resumen real de GPT-4, solo le daba una pequeña probabilidad del 1%.

Detector de texto AI con párrafo sobre Juego de Tronos

Resumen original en Winston AI
Crédito: captura de pantalla de Winston AI/Mashable

Detector de texto AI con párrafo sobre Juego de Tronos

Resumen editado por Winston AI
Crédito: captura de pantalla de Winston AI/Mashable

Hive Moderation falló por completo al analizar mi trabajo y no hizo referencia a ninguno de los resúmenes que envié. Según el sistema, ambos fueron clasificados con seguridad como contenido escrito por humanos.

Texto generado por IA en un cuadro de texto


Crédito: captura de pantalla de Moderación de Hive/Mashable

Ahora, si le pide a ChatGPT un párrafo aleatorio sobre cualquier tema y lo copia y pega en varias herramientas de detección de texto, siempre se marcará como generado por IA al instante. Pero esto en realidad refuerza el problema: sin instrucciones específicas, el estilo de escritura predeterminado de ChatGPT suele ser insulso, formulado y directo al grano.

El tono aburrido esperado es lo que desencadena estos falsos positivos, no alguna tecnología interna avanzada que estos sitios afirman tener para distinguir el contenido de IA de los humanos. Incluso cuando herramientas como Originality identifican correctamente ambas instancias de escritura con IA, un pequeño ajuste en la oración puede cambiar completamente el resultado. Con un poco de reformulación, lo que antes se señalaba como “100% confiable” como generado por IA de repente puede clasificarse como “probablemente auténtico”.

Dicho todo esto, aquí hay una lista de herramientas de detección de texto basadas en IA disponibles gratuitamente que probé utilizando el método anterior. Para mezclar las cosas, también utilicé algunas reseñas de literatura de artículos académicos que escribí en la escuela de posgrado para ver si me señalarían por usar escritura florida para aumentar mi recuento de palabras. Aquí están:

  • GPTZero

  • CeroGPT

  • Moderación en la celda

  • Punta de trazar

  • complejox

  • originalidad.ai

  • Gramática

  • Detector de salida GPT-2

  • X legítimo

  • winston yo

Si su escritura suena como el informe de un libro plano de octavo grado, los detectores de inteligencia artificial probablemente lo identificarán como un robot que necesita una prueba de Turing lo antes posible. Esta prueba muestra que simplemente evitar ciertos patrones estructurales puede engañar fácilmente a los detectores de IA. Esto representa un gran dolor de cabeza para las empresas detrás de estas herramientas, especialmente porque muchas de ellas ofrecen servicios de suscripción y apuntan a vender sus API a escuelas y empresas como una solución B2B.

Si bien estas herramientas pueden ser muy efectivas para detectar plagio, está claro que su capacidad para detectar texto generado por IA aún necesita mejoras importantes. Es difícil pasar por alto esta discrepancia: envíe el mismo texto a varios detectores y obtendrá resultados completamente diferentes. Lo que la IA señala como creado por una herramienta puede pasar desapercibido para otra herramienta. Debido a la falta de confiabilidad, es difícil recomendar cualquiera de estas herramientas con confianza en este momento.

See also  YouTube está probando una nueva función de validación "crowdsourced" en vídeos

¿Por qué es tan difícil la detección de texto generado por IA?

El lenguaje humano es increíblemente volátil y complejo, que es una de las principales razones por las que detectar texto generado por IA es tan difícil.

Con elogios directos, Miembro del Instituto de Ingenieros Eléctricos y Electrónicos (IEEE). “Estos modelos se entrenan con texto”, explica el jefe del programa de IA de la Universidad DePaul. “Por lo tanto, les resulta más fácil imitar las conversaciones humanas”.

“Las herramientas buscan detectores de patrones, como frases repetitivas, estructuras gramaticales muy regulares, cosas así”, dijo Mubasher. “A veces es fácil para un humano detectarlo, como cuando el texto es 'demasiado perfecto', pero confirmar que fue generado por IA es difícil”.

A diferencia de los generadores de imágenes, que pueden producir marcas obvias como dedos adicionales o rasgos faciales distorsionados, Mubashir explicó que los titulares de un LLM dependen de probabilidades estadísticas para generar el texto, lo que hace que su salida parezca más fluida. Como resultado, detectar errores en el texto generado por IA (como una redacción cuidadosa o violaciones gramaticales sutiles) presenta un desafío mucho mayor tanto para los detectores como para los lectores humanos.

Esto es lo que también hace que el texto generado por IA sea tan peligroso. “Cada vez es más fácil producir y generar información errónea a gran escala”, advierte Mubasher. Dado que los titulares de un LLM generan textos fluidos y pulidos que pueden imitar voces autorizadas, resulta muy difícil para la persona promedio distinguir la realidad de la ficción.

“Con la IA, estos ataques son mucho más fáciles de lanzar”, afirma Yang. “Puede hacer que el correo electrónico sea muy sencillo, transmitir el mensaje que desea e incluso incluir información personal sobre la función o misión del destinatario en la empresa”.

Además del posible uso indebido, El texto generado por IA está empeorando Internet. Los MBA de empresas como OpenAI y Anthropic están extrayendo datos disponibles públicamente para entrenar sus modelos. Los artículos generados por IA que resultan de este proceso se publican en línea y se eliminan nuevamente en un bucle sin fin.

Este ciclo de reciclaje de contenido reduce la calidad general de la información en la web, creando un ciclo de retroalimentación de material cada vez más genérico y genérico que dificulta encontrar contenido original y bien escrito.

No hay mucho que podamos hacer respecto a la rápida aceleración de la inteligencia artificial y sus efectos dañinos en el contenido en línea, pero usted puede, como mínimo, aprovechar su conocimiento sobre los medios para ayudarlo a diferenciar lo que es creado por humanos y lo que es generado por robots. .

“Si ve un artículo o informe, no lo crea ciegamente, sino busque fuentes que lo corroboren, especialmente si algo le parece falso”, dice Yang.





Source Article Link

Leave a Comment