Se han cancelado un millón de participaciones públicas en la formación de IA de Bluesky



Bluesky ya se enfrenta a su primer problema importante de IA, a pesar de la postura de sus propietarios de que Nunca entrenes IA generativa sobre los datos del usuario.

Reportado por 404 medios El 26 de noviembre, se rastrearon 1 millón de publicaciones públicas de Bluesky (completas con información de identificación del usuario) y luego se cargaron en la empresa de inteligencia artificial Hugging Face. El conjunto de datos fue creado por el bibliotecario de aprendizaje automático Daniel van Streen, con el objetivo de utilizarlo en el desarrollo de modelos de lenguaje y procesamiento del lenguaje natural, así como en el análisis general de las tendencias de las redes sociales, la moderación de contenido y los patrones de publicación. Contiene identificadores descentralizados (DID) de los usuarios y también tiene una función de búsqueda para encontrar contenido de usuarios específicos.

Según la descripción del conjunto de datos, la colección “contiene 1 millón de publicaciones públicas recopiladas de la API Firehose de Bluesky Social, destinadas a la investigación del aprendizaje automático y la experimentación con datos de redes sociales. Cada publicación contiene contenido de texto, metadatos, información sobre los medios, archivos adjuntos y respuestas. relaciones.” “

Velocidad de la luz triturable

Los usuarios de Bluesky no optan por dichos usos de su contenido, pero Bluesky no lo prohíbe expresamente. La API Firehose de la plataforma es “un flujo agregado y secuencial de todas las actualizaciones de datos públicos a medida que ocurren en la red, incluidas publicaciones, me gusta, seguimientos, manejo de cambios y más”. 404Media explica que la API de Bluesky, junto con el protocolo público y descentralizado de Transferencia Autenticada (AT) en el que se construye el sitio, significa que el contenido de Bluesky está abierto y disponible para desarrolladores externos a los que la plataforma intenta cortejar.

Esto podría ser una importante señal de advertencia para muchos de los millones de nuevos usuarios del sitio, muchos de los cuales han dejado atrás al competidor X. Una nueva y preocupante política de formación en IA. Un representante de Bluesky respondió a las solicitudes de comentarios de 404Media: “Bluesky es una red social pública y abierta, muy parecida a los sitios web en Internet. Así como los archivos robots.txt no siempre impiden que empresas de terceros rastreen esos sitios, lo mismo ocurre “Es cierto aquí. Nos gustaría. Estamos encontrando una manera para que los usuarios de Bluesky se comuniquen con organizaciones/desarrolladores externos, ya sea que estén de acuerdo con esto o que esas organizaciones externas respeten el consentimiento del usuario, y estamos discutiendo activamente cómo lograrlo”.

Poco después de la publicación del artículo, el conjunto de datos se eliminó de Hugging Face. “He eliminado los datos de Bluesky del repositorio. Si bien me gustaría apoyar el desarrollo de herramientas para la plataforma, me doy cuenta de que este enfoque viola los principios de transparencia y consentimiento en la recopilación de datos”, escribió Van Streen. . -Arriba Compartir cielo azul.





Source Article Link

Leave a Comment