Los conjuntos de datos de entrenamiento de IA de Apple y Salesforce utilizan videos de MrBeast y Marques Brownlee



Una nueva investigación ha afirmado que las empresas tecnológicas utilizaron traducciones de más de 48.000 YouTube Canales, incluidos los de los principales innovadores como MrBeast y Marques Brownlee e instituciones de educación superior como el MIT y Harvard, para capacitarlos. inteligencia artificial modelos, aunque YouTube prohíbe recopilar el contenido de la plataforma sin permiso.

Investigaciónrealizado por Proof News y publicado en asociación con cableadoEl estudio encontró que empresas como Anthropic, Nvidia, Apple y Salesforce utilizaron un conjunto de datos de 173.536 videos de YouTube, incluidos videos de Khan Academy, MIT, Harvard, The Wall Street Journal, NPR, BBC y programas nocturnos como El último show con Stephen Colbert, Anoche con John OliverY Jimmy Kimmel en vivo.

Marquis Brownlee publicó un vídeo en Instagram señalando que, en su opinión, “la verdadera historia es que Apple y una gran cantidad de otras empresas tecnológicas entrenan sus modelos de IA utilizando datos que compran a empresas de extracción de datos de terceros, algunas de las cuales obtienen sus datos en formas que no son “bastante legales… Apple técnicamente puede decir que no tienen la culpa de esto”.

cableado Dice que los representantes del laboratorio de investigación de inteligencia artificial sin fines de lucro que recopiló y publicó el conjunto de datos de YouTube, EleutherAI, no respondieron a las solicitudes de comentarios de la publicación. El conjunto de datos es parte de una colección que la organización sin fines de lucro llama The Pile, que también incluye material del Parlamento Europeo, Wikipedia en inglés y correos electrónicos de empleados de Enron Corporation que se hicieron públicos durante la investigación federal sobre la empresa a principios de la década de 2000.

Velocidad de la luz medible

cableado Los informes afirman que la mayoría de las colecciones que componen The Pile son accesibles para “cualquier persona en Internet con suficiente espacio y potencia informática para acceder a ellas”. Éstas incluyen manzana, NVIDIA, Fuerza de ventas, Bloomberg Y Datos BRICStodos los cuales han admitido públicamente haber utilizado The Pile para entrenar modelos de IA.

Jennifer Martinez, portavoz de la startup de IA Anthropic, dijo en un comunicado que si bien la compañía utilizó The Pile para capacitar a su asistente de IA generativa, “los términos de YouTube cubren el uso directo de su plataforma, que es diferente del uso del conjunto de datos de Pile”. las violaciones debido a los Términos de servicio de YouTube, debemos remitirlo a los autores de Pile”.

Brownlee añadió en el vídeo que publicó en su cuenta de Instagram: “El doble problema es que pago por transcripciones manuscritas más precisas de cada vídeo que publicamos… Esto significa que los guiones específicamente plagiados son contenido pago que se roba más de una vez”. “.

Sus preocupaciones se alinean con las de los creadores de todo el mundo que temen que su trabajo sea consumido o explotado por inteligencia artificial sin compensación ni permiso. Muchos están demandando actualmente a empresas de tecnología. Por el uso no autorizado de su obra.

See also  Rachel McAdams Shares Rare Glimpse Of Motherhood With 2 Kids: 1 Son And 1 Daughter

cableado Según se informa, The Pile todavía está disponible en servicios para compartir archivos, pero ha sido eliminado de su sitio de descarga oficial. Ella creó Proof News una herramienta Para buscar creadores en el conjunto de datos de entrenamiento de IA de YouTube.





Source Article Link

Leave a Comment