Qué es el web scraping
Scrapear es la técnica que consiste en conseguir información de una página web utilizando un código que imita el comportamiento de los crawlers o rastreadores de los motores de búsqueda.
Los rastreadores son los encargados de moverse por una página web recopilando todo tipo de datos para proceder después a su indexación así que mediante el scraping se hace exactamente lo mismo.
Para que sirve scrapear una web
Hay varios motivos por los que se scrapea una web:
- Comparar precio entre distintas webs
- Monitorizar cambios en los datos respecto al clima
- Detectar alteraciones y actualizaciones en una web
Scrapear es una actividad legal y de mucha utilidad
De hecho, piensa que herramientas SEO como DinoRANK se dedican precisamente a scrapear páginas web para poder ofrecer los datos con los que trabajar.
El problema llega cuando se obtienen y se utilizan datos que no estén disponibles para terceros como, por ejemplo, recopilar direcciones de correo electrónico para enviar spam.
Los contenidos que estén protegidos por copyright no se pueden volver a publicar en otra web pero sí se pueden usar para analizar datos.
Por ejemplo, se puede extraer los precios de todos los productos de un competidor y los propios y colocarlos en una tabla comparativa para hacer una revisión.
Por último, scrapear una web también sirve para replicarla y monetizarla, algo que hacen algunos nicheros.
Tutorial de cómo scrapear URLs en Google
A continuación te vamos a contar cómo scrapear las URLs de una web que están indexadas en Google. ¡Ojo! No todas las URL a las que se puede acceder desde la web sino las que Google ha indexado.
- Utilizando Google Chrome escribe en la barra de direcciones «site:web.com». Por defecto te va a mostrar 10 resultados por página pero lo puedes cambiar en el apartado Configuración de la Búsqueda.
- Usa la extensión gInfinity para poder hacer scroll infinito en las SERPs
- Entra en la web “highposition” y arrastra el botón “Google SERP Extraction” hasta la pestaña en la que tienes las SERPs
- Ya tienes scrapeadas todas las URLs indexadas de ese dominio.
Si aplicas esta acción a tu propia página web podrás comprobar en apenas un minuto si alguna URL ha sido indexada por error o lo contrario, si falta alguna que te interesa que Google indexe.