En este post os vamos a hablar de algo muy importante para el SEO de tu página: los crawler o rastreadores, es decir, los encargados de entrar en tu sitio web y ver qué es lo que tienes.
Un crawler es un programa que analiza una página web y por ello, todos los motores de búsqueda de Internet tienen rastreadores con mucha potencia que se dedican a recorrer sitios web para crear bases de datos con la información que recopilan.
Googlebot es el crawler de Google
Esta información recogida por el crawler es la que servirá después para indexar la página web en cuestión y por ello el rastreador o araña web debe contar con unas normas claras para crawlear o rastrear un dominio ya que de ellas depende la información que obtenga.
¿Quieres trabajar el SEO de tu web o ecommerce con el crawler de DinoRANK? ¡Analizarás tu sitio web como lo hace Google! Escucha nuestro podcast:
En este artĂculo te vamos a contar todo lo que necesitas acerca de los crawler y cĂłmo tienes que actuar ante ellos en vistas al posicionamiento de tu web.
¿Para qué sirve un crawler?
Aunque por lo general consideramos que el crawler o araña web pasa por un sitio para obtener su información, en realidad estos rastreadores consiguen otros datos que también son muy interesantes para los buscadores y que, por lo tanto, afectan al posicionamiento.
Los principales usos del crawler son:
- Crear Ăndices de bĂşsqueda a partir de la informaciĂłn y los enlaces de una web
- Encontrar links rotos, ya que su propio rastreo se lleva a cabo a través de los enlaces internos
- Crear catálogos para los buscadores en el caso de los e-commerce
Toda esta información conseguida de las distintas formas de rastreo de una página web es la que utilizan los buscadores para crear los resultados de búsqueda que obtiene un usuario al introducir los datos sobre los que quiere saber algo.
¿Qué tipo de crawlers existen?
No todos los diferentes rastreadores o crawler son iguales ni funcionan de la misma manera ya que todo depende, como decĂamos antes, de la informaciĂłn que tengan que recoger. Es decir, hay varias formas de rastreo de una página web. Por ejemplo, los Focused Crawler buscan datos especĂficos que se le han indicado en las normas a seguir.
De hecho, por lo general los crawler se pueden dividir en “buenos” y “malos”, es decir, aquellos que se limitan a recoger los datos para entregárselos al buscador del que dependen, y los que solo quieren información para copiarla.
También existe otra posible diferenciación basada en el origen de los crawler. Algunos pertenecen a buscadores como Google o Bing y otros son creados por herramientas SEO para obtener la información que necesitan para funcionar, como Ahrefs o Screaming Frog.
Crawler – Rastreador – Scraper ÂżSon diferentes?
Si has oĂdo hablar antes de los crawler o las arañas web seguramente hayas visto tambiĂ©n otros tĂ©rminos como rastreador o scraper. Tienes que saber que crawler y rastreador son sinĂłnimos pero no asĂ scraper, ya que su funciĂłn varĂa ligeramente.
Es cierto que, a grandes rasgos, un scraper también es un rastreador en el sentido de que se dedica a obtener datos de una página web. Sin embargo, la diferencia radica en que la intención del scrapping es crawlear o rastrear un dominio para conseguir información de un sitio para utilizarla en otro, siendo asà una técnica muy usada en el Black Hat SEO para copiar páginas web.
Cómo bloquear los crawlers o arañas web en tu dominio
Por lo general, un crawler rastrea todas las páginas de un sitio web pero existe la posibilidad de que no te interese que registre determinadas páginas o incluso el sitio por completo. Además, si tienes conocimiento acerca de algĂşn crawler “malo” o scraper de los que hemos hablado antes, serĂa conveniente bloquearlo tambiĂ©n.
Por ello se pueden bloquear crawlers desde el archivo robots.txt de una forma sencilla dando a los diferentes rastreadores la orden de que no rastreen el contenido de tu sitio web. Eso sĂ, tienes que saber que esto no impide que la web sea indexada por los buscadores.
La lĂnea de cĂłdigo que debes añadir al archivo robots.txt para bloquear el acceso a los crawler maliciosos o scrapers es la siguiente:
“User-agent: nombre del crawler
Disallow: /”
Puedes añadir todos los crawler o scraper que desees añadiendo el mismo código para cada uno de ellos.
Resumiendo
Los crawler, rastreadores o arañas web son indispensables para el posicionamiento de tu web ya que son quienes les van a decir a los buscadores qué es lo que hay en tu web recorriéndola enlace por enlace. Por ello, debes procurar facilitarles el acceso de forma que obtengan el mayor número de datos posibles para mejorar tu ranking en los resultados de búsqueda.