Reddit actualiza su estándar web para evitar que los datos se eliminen automáticamente de su sitio web



plataforma de redes sociales Reddit Dijo el martes que actualizaría el estándar web que utiliza la plataforma para evitar que los datos se extraigan automáticamente de su sitio web, después de informes de que… Amnistía Internacional Las empresas emergentes han ido más allá de la norma al recopilar contenido para sus sistemas.

La medida se produce cuando las empresas de inteligencia artificial han sido acusadas de robar contenido de los editores para crear resúmenes generados por inteligencia artificial sin dar crédito ni pedir permiso.

Reddit dijo que actualizará el Protocolo de exclusión de robots, o “robots.txt”, un estándar ampliamente aceptado destinado a definir qué partes de un sitio pueden rastrearse.

La compañía también dijo que mantendrá la limitación de velocidad, una tecnología utilizada para controlar la cantidad de solicitudes de una entidad en particular, y evitará que robots y rastreadores desconocidos extraigan datos (recopilen y guarden información sin procesar) en su sitio web.

Recientemente, robots.txt se ha convertido en una herramienta importante utilizada por los editores para evitar que las empresas de tecnología utilicen su contenido de forma gratuita para entrenar algoritmos de inteligencia artificial y generar resúmenes en respuesta a determinadas consultas de búsqueda.

La semana pasada, una carta a los editores de la startup de licencias de contenido TollBit decía que varias empresas de inteligencia artificial estaban eludiendo el estándar web para secuestrar los sitios de los editores.

Esto se produce después de una investigación de Wired que encontró la startup de investigación de IA. Confusión Es posible que haya evitado los esfuerzos para bloquear su rastreador web mediante robots.txt.

See also  Google Gemini Pro API access available from December 13 2023

A principios de junio, la editorial de medios empresariales Forbes acusó a Perplexity de plagiar sus historias de investigación para usarlas en sistemas de inteligencia artificial generativa sin dar crédito.

Reddit dijo el martes que investigadores y organizaciones como Internet Archive seguirán accediendo a su contenido para uso no comercial.

© Thomson Reuters 2024


Los enlaces de afiliados pueden generarse automáticamente; consulte Declaración de ética Para detalles.



Source Article Link

Leave a Comment