Un generador de ideas de IA generó más ideas de investigación originales que 50 científicos que trabajaron de forma independiente, según una preimpresión publicada en arXiv este mes.1.
Los revisores evaluaron las ideas generadas por humanos y por IA, a quienes no se les dijo quién o qué creó cada idea. Los revisores calificaron los conceptos generados por IA como más interesantes que los escritos por humanos, aunque las sugerencias de IA recibieron una puntuación ligeramente más baja en cuanto a viabilidad.
Pero los científicos señalan que el estudio, que no ha sido revisado por pares, tiene limitaciones. Se centró en un área única de investigación y requirió que los participantes humanos presentaran ideas en el momento, lo que probablemente obstaculizó su capacidad para producir sus mejores conceptos.
Inteligencia artificial en la ciencia
allá Esfuerzos crecientes Explorar cómo se pueden utilizar los programas LLM para automatizar tareas de investigación, incluidas Escribir documentos, Generación de código y búsqueda de literaturaPero ha sido difícil evaluar si estas herramientas de IA son capaces de generar nuevos ángulos de investigación a un nivel similar al de los humanos. Esto se debe a que evaluar ideas es un proceso complejo. muy subjetivo Este método requiere reunir a investigadores que tengan la experiencia necesaria para evaluar cuidadosamente estas capacidades, afirma Chengli Si, uno de los autores del estudio. “Para nosotros, la mejor manera de poner esas capacidades en contexto es hacer una comparación directa”, dice Si, científico informático de la Universidad de Stanford en California.
El proyecto de un año de duración es uno de los mayores esfuerzos para evaluar si los grandes modelos de lenguaje (LLM), herramientas tecnológicas básicas como… chat gbt La IA puede producir ideas de investigación innovadoras, dice Tom Hope, científico informático del Instituto Allen de Inteligencia Artificial en Jerusalén. “Se necesita más trabajo como este”, añade.
El equipo ha reclutado a más de 100 investigadores en el campo del procesamiento del lenguaje natural, una rama de la informática que se centra en la comunicación entre la inteligencia artificial y los humanos. Se asignó a cuarenta y nueve participantes la tarea de desarrollar y escribir ideas, basadas en uno de siete temas, en un plazo de diez días. Como incentivo, los investigadores pagaron a los participantes 300 dólares por idea, con un bono de 1.000 dólares por las cinco ideas con mayor puntuación.
Mientras tanto, los investigadores construyeron un generador de ideas utilizando Claude 3.5, un programa LLM desarrollado por Anthropic en San Francisco, California. Los investigadores utilizaron su herramienta de inteligencia artificial para encontrar artículos relevantes para los siete temas de investigación utilizando Semantic Scholar, un motor de búsqueda de literatura impulsado por inteligencia artificial. Sobre la base de estos artículos, los investigadores hicieron que su agente de inteligencia artificial generara 4.000 ideas sobre cada tema de investigación y le ordenaron que clasificara las ideas más originales.
Revisores humanos
A continuación, los investigadores distribuyeron aleatoriamente las ideas generadas por humanos y la IA a 79 revisores, quienes calificaron cada idea en función de su novedad, entusiasmo, aplicabilidad y efectividad esperada. Para garantizar que los creadores de las ideas siguieran siendo desconocidos para los revisores, los investigadores utilizaron otra forma de editar ambos tipos de textos para estandarizar el estilo y el tono de escritura sin cambiar las ideas mismas.
En promedio, los revisores calificaron las ideas producidas por la IA como más originales e interesantes que las escritas por participantes humanos. Sin embargo, cuando el equipo examinó más de cerca las 4.000 ideas producidas por LLM, descubrieron que sólo unas 200 eran verdaderamente únicas, lo que sugiere que la IA se estaba volviendo menos original a medida que producía ideas.
Cuando Si realizó una encuesta entre los participantes, la mayoría admitió que las ideas que presentaban eran promedio en comparación con las que habían presentado en el pasado.
Los resultados sugieren que los estudiantes de LLM pueden ser capaces de producir ideas ligeramente más originales que las que se encuentran en la literatura actual, afirma Cong Lu, investigador de aprendizaje automático de la Universidad de Columbia Británica en Vancouver, Canadá. Pero si pueden superar las ideas humanas más creativas es una cuestión abierta.
Otra limitación es que el estudio comparó reflexiones escritas editadas por titulares de un LLM, lo que cambió el lenguaje y la extensión de las contribuciones, dice Gevin West, sociólogo computacional de la Universidad de Washington en Seattle. Añade que tales cambios pueden haber afectado sutilmente la forma en que los revisores perciben las novedades. West añade que enfrentar a investigadores con LLM que pueden generar miles de ideas en cuestión de horas puede no ser una comparación completamente justa. “Hay que comparar manzanas con manzanas”, dice.
Si y sus colegas planean comparar ideas generadas por IA con artículos de conferencias líderes para comprender mejor cómo se comparan los programas LLM con la creatividad humana. “Estamos intentando que la sociedad piense más seriamente sobre cómo debería ser el futuro cuando la IA pueda desempeñar un papel más activo en el proceso de investigación”, afirma.