Desde el lanzamiento del chatbot ChatGPT basado en inteligencia artificial a finales de 2022, los informáticos han notado una tendencia preocupante: los chatbots se utilizan cada vez más para revisar artículos que terminan en las actas de importantes conferencias.
Hay muchas señales reveladoras. Las reseñas escritas con herramientas de inteligencia artificial se destacan por su tono formal y verbosidad, características típicamente asociadas con el estilo de escritura de los grandes modelos de lenguaje (LLM). Por ejemplo, palabras como “encomiable” y “exacto” son diez veces más comunes en las revisiones por pares que antes de 2022. Las revisiones generadas por IA también tienden a ser superficiales y generalizadas, a menudo no mencionan secciones específicas del artículo enviado y carecen de referencias. . .
Ya sea que la IA esté lista o no, cuando ingresa a la educación científica, los estudiantes tienen opiniones
Eso es lo que descubrimos mis colegas y yo en la Universidad de Stanford en California cuando examinamos casi 50.000 revisiones de artículos de informática publicados en actas de congresos en 2023 y 2024. Estimamos que entre el 7% y el 17% de las oraciones de las revisiones están escritas por estudiantes de LLM. Según el estilo de escritura y la frecuencia de aparición de determinadas palabras (W. Liang et al. Brooke. Int 41. Assiut. Mach. Él aprende. 23529575-29620; 2024).
La falta de tiempo puede ser una de las razones para utilizar un LLM para escribir revisiones por pares. Descubrimos que la tasa de texto generado por LLM es mayor en las revisiones enviadas cerca de la fecha límite. Esta tendencia no hará más que intensificarse. Los editores ya están luchando por conseguir revisiones de manera oportuna y los revisores están abrumados con solicitudes.
Afortunadamente, los sistemas de inteligencia artificial pueden ayudar a resolver el problema que crearon. Por esta razón, el uso de LLM debe limitarse a tareas específicas: corregir el lenguaje y la gramática, responder preguntas sencillas sobre manuscritos e identificar información relevante, por ejemplo. Sin embargo, si se utilizan de manera irresponsable, los LLM corren el riesgo de socavar la integridad del proceso científico. Por lo tanto, es importante y urgente que la comunidad científica trabaje para establecer estándares sobre cómo estos modelos pueden usarse responsablemente en el proceso de revisión por pares académicos.
Propiedad intelectual y privacidad de datos: Los peligros ocultos de la inteligencia artificial
En primer lugar, es esencial darse cuenta de que la generación actual de titulares de un LLM no puede reemplazar a los revisores humanos expertos. A pesar de sus habilidades, los LLM no pueden demostrar un pensamiento científico profundo. A veces también generan respuestas sin sentido, conocidas como alucinaciones. Una queja común de los investigadores que recibieron revisiones escritas de LLM por sus manuscritos fue que los comentarios carecían de profundidad técnica, particularmente con respecto a la crítica metodológica (W. Liang et al. Estrella de la inteligencia artificial 1,AIoa2400196; 2024). Los titulares de un LLM también pueden pasar por alto fácilmente los errores en un trabajo de investigación.
Dadas estas advertencias, se requiere un diseño cuidadoso y barandillas al implementar LLM. Para los revisores, un asistente de chatbot con tecnología de inteligencia artificial puede brindar comentarios sobre cómo hacer que las sugerencias vagas sean más procesables para los autores antes de enviar la revisión por pares. También puede resaltar secciones del artículo que el revisor podría haber pasado por alto y que en realidad abordan las preguntas planteadas en la revisión.
Para ayudar a los editores, el LLM puede recuperar y resumir artículos relevantes para ayudarlos a contextualizar el trabajo y verificar el cumplimiento de las listas de verificación de envío (por ejemplo, para garantizar que las estadísticas se informen correctamente). Estas son aplicaciones LLM de riesgo relativamente bajo que pueden ahorrar tiempo a revisores y editores si se implementan bien.
Sin embargo, los MBA pueden cometer errores incluso cuando realizan tareas de resumen y recuperación de información de bajo riesgo. Por lo tanto, los resultados del LLM deben verse como un punto de partida, no como una respuesta final. Los usuarios aún deben verificar que el LLM esté funcionando.
ChatGPT un año después: ¿Quién lo usa, cómo y por qué?
Las revistas y conferencias pueden verse tentadas a utilizar algoritmos de inteligencia artificial para detectar el uso de LLM en revisiones por pares y artículos, pero su efectividad es limitada. Aunque estos detectores pueden resaltar ejemplos claros de texto generado por IA, son vulnerables a producir falsos positivos, por ejemplo, al marcar texto escrito por científicos cuyo primer idioma no es el inglés como procedente de la producción de inteligencia artificial. Los usuarios también pueden evitar la detección induciendo estratégicamente el LLM. Los evaluadores a menudo tienen dificultades para distinguir entre usos razonables del software MBA (para mejorar el texto sin formato, por ejemplo) y usos inapropiados, como usar un chatbot para escribir el informe completo.
En última instancia, la mejor manera de evitar que la IA se haga cargo de la revisión por pares puede ser fomentar más interacciones humanas durante el proceso. Plataformas como OpenReview alientan a los revisores y autores a interactuar de forma anónima, resolviendo preguntas a través de varias rondas de discusión. OpenReview se utiliza ahora en muchas conferencias y revistas importantes de informática.
La ola de uso de LLM en redacción académica y revisión por pares no se puede detener. Para afrontar este cambio, las revistas y los lugares de conferencias deben establecer directrices claras e implementar sistemas para implementarlas. Como mínimo, las revistas deberían pedir a los revisores que revelen de forma transparente si utilizan un LLM y cómo lo hacen durante el proceso de revisión. También necesitamos plataformas innovadoras e interactivas de revisión por pares adaptadas a la era de la IA, que puedan restringir automáticamente el uso de los MBA a un conjunto limitado de tareas. Paralelamente, necesitamos más investigación sobre cómo la IA puede ayudar de manera responsable con algunas tareas de revisión por pares. Establecer estándares y recursos comunitarios ayudará a garantizar que los revisores, editores y autores se beneficien de los LLM sin comprometer la integridad del proceso científico.
Intereses en competencia
El autor no declara intereses en competencia.