Un estudio reciente publicado en Asociación PNAS La revista destaca la aparición de modelos de inteligencia artificial como ChatGPT Podría ser un desafío al dominio de los sitios tradicionales de intercambio de conocimientos como Reddit y el foro de programación Stack Overflow. Este cambio puede afectar la disponibilidad de información pública de libre acceso.
La investigación, realizada por María del Río-Chanona y sus colegas, muestra que Stack Overflow experimentó una caída del 25% en la actividad de los usuarios tan solo seis meses después del lanzamiento de ChatGPT.
Esta disminución no se observó en sitios similares donde el acceso a ChatGPT está restringido, lo que destaca el impacto significativo de la rápida adopción del modelo de IA. Según el estudio, los usuarios pueden recurrir a respuestas generadas por IA en lugar de buscar contenido generado por humanos, cambiando la forma en que las personas obtienen información en línea.
“Los programas LLM son tan poderosos, tan valiosos y tan impactantes en el mundo”, dice del Rio-Shanona, quien también es miembro asociado del cuerpo docente en la escuela de negocios. “Uno comienza a preguntarse sobre su futuro”. Centro de Ciencias de la Complejidad (CSH). Los hallazgos plantean la preocupación de que una mayor dependencia de la IA podría reducir la cantidad de contribuciones en foros públicos, lo que llevaría a una falta de datos diversos del mundo real necesarios para entrenar modelos futuros. “Esto tiene implicaciones muy grandes. Esto significa que puede que no haya suficientes datos públicos para entrenar modelos en el futuro”.
Pitón y JavaScript
Esta tendencia podría alterar el ecosistema web abierto, donde las herramientas de inteligencia artificial como ChatGPT dependen del conocimiento compartido de los datos de entrenamiento. “Incluso los modelos de IA como ChatGPT están entrenados en contenido generado por humanos, como publicaciones de Stack Overflow”, explica Johannes Wax, miembro de la facultad de CSH. Irónicamente, a medida que la IA desplaza a estas plataformas, la calidad de los datos de entrenamiento puede deteriorarse con el tiempo.
El impacto es particularmente evidente en publicaciones relacionadas con lenguajes de programación ampliamente utilizados como Python y JavaScript, donde la actividad ha disminuido significativamente. El estudio sugiere que este cambio no se limita a los principiantes, sino que está afectando a los usuarios en todos los niveles de experiencia, lo que indica un amplio paso de las interacciones públicas a las privadas en las plataformas de IA.
A medida que disminuye el número de personas que contribuyen a las plataformas públicas, los modelos de IA pueden llegar a depender de datos de menor calidad, lo que podría degradar su rendimiento. Los investigadores piden un enfoque equilibrado que mantenga el intercambio abierto de conocimientos y al mismo tiempo adopte los avances en inteligencia artificial.