manzanaSegún se informa, Anthropic y otras importantes empresas de inteligencia artificial han entrenado modelos de inteligencia artificial con datos de cientos de miles de… YouTube Un nuevo informe afirma que varias empresas de inteligencia artificial han utilizado un conjunto de datos disponible públicamente llamado Pile que contiene el texto sin formato de los subtítulos de los vídeos sin imágenes de vídeo. Los datos se recopilaron de creadores populares de YouTube como MrBeast, Marques Brownlee y PewDiePie, así como de creadores indios de YouTube como CarryMinati, BB ki Vines y Ashish Chanchlani.
Muchos modelos de IA se entrenan en vídeos de YouTube
Proof News realizó un estudio investigación Los investigadores han descubierto que los datos de subtítulos de hasta 173.536 vídeos de YouTube se tomaron de más de 48.000 canales. Según el informe, EleutherAI, un laboratorio de investigación de inteligencia artificial sin fines de lucro, seleccionó este conjunto de datos. Posteriormente fue utilizado por empresas como Apple, antrópico, Nvidia, Salesforce y más. Cabe señalar que el Laboratorio de Inteligencia Artificial publicó una investigación papel Resalte los detalles del conjunto de datos.
EleutherAI creó un almacén de datos de 800 GB llamado Pile y lo puso a disposición del público para aquellos que querían entrenar modelos de IA pero no podían permitirse grandes conjuntos de datos. La mayor parte del conjunto de datos se tomó de fuentes disponibles públicamente, como Wikipedia en inglés, libros electrónicos y más. Sin embargo, también contenía subtítulos de todos los vídeos recopilados en un conjunto de datos llamado Subtítulos de YouTube.
El informe afirmaba que Pile se utilizó para entrenar el modelo de IA OpenELM de Apple, según la descripción del artículo de investigación. fuerza de ventas, NVIDIALos informes también indican que el conjunto de datos se ha utilizado en artículos de investigación sobre modelos de inteligencia artificial publicados por Anthropic.
La portavoz de Anthropic, Jennifer Martinez, dijo a la publicación en un comunicado: “The Pile incluye un subconjunto muy pequeño de traducciones de YouTube. Los términos de YouTube cubren el uso directo de su plataforma, que es diferente del uso del conjunto de datos de Pile. En cuanto a posibles violaciones de los derechos de YouTube, términos de servicio. Tenemos que remitirlo a los autores de Pile”.
Vale la pena señalar los términos de servicio de YouTube. Prohibido Nadie podrá acceder a los vídeos de la plataforma utilizando medios automatizados como bots, botnets o scrapers. Las traducciones de YouTube entrarán en la categoría de scraping. Un portavoz de Google dijo a Proof News en una respuesta por correo electrónico que el gigante tecnológico ha tomado “medidas a lo largo de los años para evitar el scraping abusivo y no autorizado”. Sin embargo, no se hicieron comentarios sobre el uso de datos por parte de las empresas de IA.
En una publicación en el sitio web
Apple obtiene datos para inteligencia artificial de varias empresas
Alguien recopiló cantidades masivas de datos/texto de videos de YouTube, incluido el mío.
Apple técnicamente está evitando la “falla” aquí porque no es la empresa la que realiza la limpieza.
Pero este será un problema que evolucionará durante mucho tiempo. https://t.co/U93riaeSlY
– Marqués Brownlee (@MKBHD) 16 de julio de 2024
Aunque este conjunto de datos fue recopilado y distribuido públicamente, puede haber otros casos de recopilación de datos en plataformas como YouTube. A medida que las empresas de inteligencia artificial se esfuerzan por encontrar más datos para entrenar sus grandes modelos lingüísticos, los datos de compras pueden seguir cayendo en áreas legales grises similares.