Una araña web (también conocida como crawler, spider o rastreador) es un bot cuya tarea es rastrear y analizar páginas web para facilitar que sean indexadas por los motores de búsqueda.
Cómo funcionan los crawlers web
Las arañas se mueven de enlace a enlace siguiendo las directrices del archivo robots.txt.
👉 Si una URL tiene etiquetas “nofollow” o “noindex” en este archivo los rastreadores no informarán acerca de ella a los motores de búsqueda aunque puede haber excepciones en las que el bot considere que sí debe pasar por esa URL y rastrearla.
Una vez que las arañas encuentran una página nueva crean una copia de la misma para ofrecerla a los motores de búsqueda e informar acerca de la misma.
Los pasos que realiza una araña o crawler al llegar a una URL son los siguientes:
- Identifica todos los enlaces que haya en la misma, ya sean internos o externos.
- Añade estos enlaces a la lista de URL que tiene que rastrear de forma frecuente.
Esta operación se realiza una y otra vez con cada URL que encuentran por lo que el índex de los motores de búsqueda va aumentando paulatinamente.
Este movimiento de las arañas también supone la recogida de información (como, por ejemplo, los precios de un producto para poder mostrar un pequeño catálogo en los resultados de búsqueda) y la localización de enlaces rotos.
Además, cuentan con un presupuesto de rastreo o crawl budger que implica que, en ocasiones, no dispongan del tiempo necesario para analizar todos los enlaces de una web.
Cómo afecta al posicionamiento
Facilitar el movimiento de las arañas por una web es básico para el posicionamiento. Si llegan hasta una página demasiado lenta gastarán buena parte del presupuesto de rastreo cargando sus URL y no tendrán tiempo para rastrearlas e indexarlas todas.
Lo mismo se aplica al enlazado interno. Una arquitectura web confusa en la que haya demasiados niveles de profundidad hará que las arañas pierdan mucho tiempo moviéndose por los links y no podrán analizar la web por completo.
Puedes ver cuántas webs rastrean las arañas al día en tu web y cuánto tiempo tardan en Google Search Console en “Ajustes -> Estadísticas de rastreo -> Abrir informe”
Esto incluye también las redirecciones mal ejecutadas y los errores 404: todo ello son factores que afectan al rendimiento de las arañas en una página web al gastar presupuesto de rastreo y que, por tanto, inciden de forma directa a la hora de posicionarla.
Por último y sabiendo que las arañas se mueven a través de enlaces, hay que hacer hincapié en la importancia que tienen links externos en este aspecto.
Cuantos más enlaces apunten hacia una web, más veces podrán pasar los rastreadores por ella y más relevancia cobrará a ojos de los motores de búsqueda.