Aprender SEO

Qué es un crawler o rastreador de Google

Pinterest LinkedIn Tumblr

En este post os vamos a hablar de algo muy importante para el SEO de tu página: los crawler o rastreadores, es decir, los encargados de entrar en tu sitio web y ver qué es lo que tienes.

Un crawler es un programa que analiza una página web y por ello, todos los motores de búsqueda de Internet tienen rastreadores con mucha potencia que se dedican a recorrer sitios web para crear bases de datos con la información que recopilan.

crawler o rastreador que es para google

Googlebot es el crawler de Google

Esta información recogida por el crawler es la que servirá después para indexar la página web en cuestión y por ello el rastreador o araña web debe contar con unas normas claras para crawlear o rastrear un dominio ya que de ellas depende la información que obtenga.

En este artículo te vamos a contar todo lo que necesitas acerca de los crawler y cómo tienes que actuar ante ellos en vistas al posicionamiento de tu web.

¿Para qué sirve un crawler?

Aunque por lo general consideramos que el crawler o araña web pasa por un sitio para obtener su información, en realidad estos rastreadores consiguen otros datos que también son muy interesantes para los buscadores y que, por lo tanto, afectan al posicionamiento.

Los principales usos del crawler son:

  • Crear índices de búsqueda a partir de la información y los enlaces de una web
  • Encontrar links rotos, ya que su propio rastreo se lleva a cabo a través de los enlaces internos
  • Crear catálogos para los buscadores en el caso de los e-commerce

Toda esta información conseguida de las distintas formas de rastreo de una página web es la que utilizan los buscadores para crear los resultados de búsqueda que obtiene un usuario al introducir los datos sobre los que quiere saber algo.

que-es-crawler

¿Qué tipo de crawlers existen?

No todos los diferentes rastreadores o crawler son iguales ni funcionan de la misma manera ya que todo depende, como decíamos antes, de la información que tengan que recoger. Es decir, hay varias formas de rastreo de una página web. Por ejemplo, los Focused Crawler buscan datos específicos que se le han indicado en las normas a seguir.

De hecho, por lo general los crawler se pueden dividir en “buenos” y “malos”, es decir, aquellos que se limitan a recoger los datos para entregárselos al buscador del que dependen, y los que solo quieren información para copiarla.

También existe otra posible diferenciación basada en el origen de los crawler. Algunos pertenecen a buscadores como Google o Bing y otros son creados por herramientas SEO para obtener la información que necesitan para funcionar, como Ahrefs o Screaming Frog.

Crawler – Rastreador – Scraper ¿Son diferentes?

Si has oído hablar antes de los crawler o las arañas web seguramente hayas visto también otros términos como rastreador o scraper. Tienes que saber que crawler y rastreador son sinónimos pero no así scraper, ya que su función varía ligeramente.

Es cierto que, a grandes rasgos, un scraper también es un rastreador en el sentido de que se dedica a obtener datos de una página web. Sin embargo, la diferencia radica en que la intención del scrapping es crawlear o rastrear un dominio para conseguir información de un sitio para utilizarla en otro, siendo así una técnica muy usada en el Black Hat SEO para copiar páginas web.

bloquear-crawler

Cómo bloquear los crawlers o arañas web en tu dominio

Por lo general, un crawler rastrea todas las páginas de un sitio web pero existe la posibilidad de que no te interese que registre determinadas páginas o incluso el sitio por completo. Además, si tienes conocimiento acerca de algún crawler “malo” o scraper de los que hemos hablado antes, sería conveniente bloquearlo también.

Por ello se pueden bloquear crawlers desde el archivo robots.txt de una forma sencilla dando a los diferentes rastreadores la orden de que no rastreen el contenido de tu sitio web. Eso sí, tienes que saber que esto no impide que la web sea indexada por los buscadores.

La línea de código que debes añadir al archivo robots.txt para bloquear el acceso a los crawler maliciosos o scrapers es la siguiente:

“User-agent: nombre del crawler

Disallow: /”

Puedes añadir todos los crawler o scraper que desees añadiendo el mismo código para cada uno de ellos.

Resumiendo

Los crawler, rastreadores o arañas web son indispensables para el posicionamiento de tu web ya que son quienes les van a decir a los buscadores qué es lo que hay en tu web recorriéndola enlace por enlace. Por ello, debes procurar facilitarles el acceso de forma que obtengan el mayor número de datos posibles para mejorar tu ranking en los resultados de búsqueda.

Autor

Deja un Comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

¡La única herramienta SEO que necesitas!

50% off

OFERTA