Si has oído hablar antes de los crawler o las arañas web seguramente hayas visto también otros términos como rastreador o scraper. Tienes que saber que crawler y rastreador son sinónimos pero no así scraper, ya que su función varía ligeramente.
Es cierto que, a grandes rasgos, un scraper también es un rastreador en el sentido de que se dedica a obtener datos de una página web. Sin embargo, la diferencia radica en que la intención del scrapping es crawlear o rastrear un dominio para conseguir información de un sitio para utilizarla en otro, siendo así una técnica muy usada en el Black Hat SEO para copiar páginas web.

Por lo general, un crawler rastrea todas las páginas de un sitio web pero existe la posibilidad de que no te interese que registre determinadas páginas o incluso el sitio por completo. Además, si tienes conocimiento acerca de algún crawler “malo” o scraper de los que hemos hablado antes, sería conveniente bloquearlo también.
Por ello se pueden bloquear crawlers desde el archivo robots.txt de una forma sencilla dando a los diferentes rastreadores la orden de que no rastreen el contenido de tu sitio web. Eso sí, tienes que saber que esto no impide que la web sea indexada por los buscadores.
La línea de código que debes añadir al archivo robots.txt para bloquear el acceso a los crawler maliciosos o scrapers es la siguiente:
“User-agent: nombre del crawler
Disallow: /”
Puedes añadir todos los crawler o scraper que desees añadiendo el mismo código para cada uno de ellos.
Los crawler, rastreadores o arañas web son indispensables para el posicionamiento de tu web ya que son quienes les van a decir a los buscadores qué es lo que hay en tu web recorriéndola enlace por enlace. Por ello, debes procurar facilitarles el acceso de forma que obtengan el mayor número de datos posibles para mejorar tu ranking en los resultados de búsqueda.
