Una nueva investigación ha revelado la magnitud del creciente problema del web scraping en algunos de los sitios web más grandes del mundo.
El informe de Smartproxy sobre los sitios con mayor extracción de datos en 2024 afirma que las páginas de redes sociales representan más de una cuarta parte (27%) de los sitios con mayor extracción de datos.
Durante 2023 y los primeros tres meses de 2024, los bots estuvieron particularmente interesados en motores de búsqueda como Google (42%) Sin embargo, las cuentas de redes sociales y los foros comunitarios combinados representaron un tercio (34%) de los casos de scraping observados.
Google es el sitio más buscado
Aunque estos sitios son preocupantes, afortunadamente muchos de ellos no son objetivos de la extracción de datos, siendo los motores de búsqueda y el comercio electrónico los que lideran el camino.
“Esta tendencia destaca la necesidad urgente de datos de búsqueda en tiempo real en varios sectores, incluido el campo cada vez mayor de la IA, donde los datos desempeñan un papel crucial en el entrenamiento de modelos de IA”, dijo Vytautas Savickas, director ejecutivo de Smartproxy.
“Además, las plataformas de comercio electrónico contribuyen con una parte importante de la mayoría de los objetivos recopilados, lo que refleja la búsqueda de la industria de información competitiva necesaria para estrategias dinámicas de precios”.
Los sitios de comercio electrónico, que representan aproximadamente una quinta parte (18%) de las solicitudes de scraping, representan un sector en crecimiento. Smartproxy señaló que están surgiendo tendencias de compra y, a medida que los consumidores buscan precios más competitivos, los datos en tiempo real son cada vez más importantes.
El informe también muestra picos en el comercio electrónico, con períodos de compras como el Black Friday (+64%), Navidad (+46%), Amazonas Prime Day (+22%) está experimentando grandes aumentos.
“Las empresas están intensificando sus esfuerzos de recopilación de datos durante estos tiempos para capitalizar el valor de los datos generados por la avalancha de compradores en línea que buscan descuentos y ofertas especiales”, añadió Savickas.