Según los informes, la empresa de inteligencia artificial Runway ha robado “miles” de vídeos de YouTube y versiones pirateadas de películas protegidas por derechos de autor sin permiso. 404 medios Adquirido Las supuestas hojas de cálculo internas indican que la empresa de generación de videos con IA entrenó su modelo Gen-3 utilizando contenido de YouTube de canales como Disney, Netflix, Pixar y medios de comunicación populares.
Un presunto ex empleado de Runway le dijo al periódico que la compañía usó la hoja de cálculo para identificar listas de videos que quería en su base de datos. Luego los descarga sin ser detectado utilizando un software proxy de código abierto para cubrir sus huellas. Una página enumera palabras clave simples como astronauta, hada y arcoíris, con notas a pie de página que indican si la empresa ha encontrado videos de alta calidad adecuados para la capacitación. Por ejemplo, el término “superhéroe” incluye una nota que dice “Muchos clips de película”. (de hecho).
Otras notas muestran que Runway ha marcado los canales de YouTube de Unreal Engine, el cineasta Josh Neuman y una página de fans de Call of Duty como buenas fuentes para videos de entrenamiento de “alta acción”.
“Los canales en esa hoja de cálculo fueron un esfuerzo de toda la empresa para encontrar videos de alta calidad con los que construir el modelo”, dijo el ex empleado. 404 medios“Esto luego se usó como entrada para un rastreador web masivo que descargó todos los videos de todos estos canales, utilizando servidores proxy para evitar ser bloqueado por Google”.
Una lista de unos 4.000 canales de YouTube, compilada en una hoja de cálculo, incluía “canales recomendados” de CBS New York, AMC Theatres, Pixar, Disney+, DisneyCD y el Acuario de la Bahía de Monterey. (Porque ningún modelo de IA está completo sin nutrias).
Además, según se informa, Runway compiló una lista separada de videos de sitios web de piratería. Una hoja de cálculo titulada “Fuente ajena a YouTube” incluye 14 enlaces a fuentes como un archivo en línea no autorizado de videos de piratería. Películas del estudio GhibliSitios de piratería de películas y anime, un sitio de fans que presenta videos de juegos de Xbox y el sitio de transmisión de anime kisscartoon.sh.
En lo que podría considerarse una confirmación concluyente de que la empresa utilizó datos de formación, 404 medios Los investigadores descubrieron que ingresar los nombres de YouTubers populares en una hoja de cálculo del generador de videos daba como resultado resultados que guardaban un extraño parecido. Fundamentalmente, ingresar los mismos nombres en el antiguo modelo Runway Gen-2, que fue entrenado antes de los supuestos datos en hojas de cálculo, produjo resultados “irrelevantes”, como hombres comunes y corrientes con traje. Además, después de que la revista se comunicara con Runway y preguntara sobre la similitud de los YouTubers que aparecen en los resultados, la herramienta de inteligencia artificial dejó de generarlos por completo.
“Espero que al compartir esta información, la gente pueda comprender mejor qué tan grandes son estas empresas y qué hacen para crear videos 'geniales'”, dijo el ex empleado. 404 medios.
Cuando se le contactó para hacer comentarios, un representante de YouTube indicó a Engadget que entrevista El director ejecutivo de la empresa, Neil Mohan, dio Bloomberg En abril, la compañía de Mohan calificó los videos de capacitación que publicó como una “clara violación” de sus términos. “Nuestros comentarios anteriores sobre esta postura”, escribió el portavoz de YouTube, Jack Mason, a Engadget.
Runway no respondió a una solicitud de comentarios al momento de la publicación.
Al menos algunas empresas de inteligencia artificial parecen estar en una carrera para normalizar sus herramientas y solidificar su liderazgo en el mercado antes de que los usuarios (y los tribunales) descubran cómo hacer sus propias salchichas. Capacitar con permiso a través de acuerdos de licencia es una cosa y otra táctica seguida por empresas como Recientemente adopté OpenAIPero es ilegal tratar todo Internet –incluido el material protegido por derechos de autor– como algo en juego en una carrera frenética por ganancias y dominio.
404 mediosexcelente Vale la pena leer el informe..