GoogleBot es el nombre que recibe el rastreador web de Google. Su función consiste en identificar, clasificar e indexar páginas web para que pasen a formar parte del índice de Google del que el buscador obtiene las URL para formar los resultados de búsqueda.
¿Cómo funciona el bot de Google?
GoogleBot puede actuar de dos formas distintas: como usuario que está utilizando un ordenador o como usuario que navega desde un teléfono móvil.
Para ello, necesita recursos que le permitan moverse de una web a otra.
Teniendo en cuenta que existen millones de páginas webs en Internet, GoogleBot cuenta con un algoritmo que le indica cuántas webs debe visitar, las URL que puede encontrar en cada una, la frecuencia con la que las debe rastrear y el tiempo que tiene para hacerlo.
GoogleBot nunca superará el ancho de banda de una web para no saturarla
GoogleBot va pasando de una web a otra a través de las URL por las que accede a otros dominios, a subpáginas, etc…
Por eso es importante que tu web tenga un enlazado interno que facilite que GoogleBot llegue a las URL que quieras que sean rastreadas e indexadas y que envíes a Google un sitemap con las mismas.
Además, GoogleBot se divide en distintos rastreadores con funciones específicas como por ejemplo:
- Imágenes: Googlebot-Image
- Noticias: Googlebot-News
- Video: Googlebot-Video
¿Qué puede ver GoogleBot?
Además de la información contenida en las páginas web, GoogleBot es capaz de analizar los datos de archivos PDF, DOC,XLS… por lo que es recomendable que no le cortes el acceso a los mismos. También puede acceder a archivos CSS y JavaScript.
Toda esta información es lo que hará que GoogleBot pueda clasificar correctamente una página web y que ésta aparezca en los resultados de búsqueda por lo que debes permitir el acceso del rastreador si quieres que tu web se indexe.
De la misma forma, es recomendable que bloquees el acceso a las URL que no son relevantes para el posicionamiento (por ejemplo, toda la información legal). De esta forma, GoogleBot tendrá más tiempo para rastrear el resto de URL.
Puedes darle todas estas indicaciones mediante el archivo robots.txt y etiquetas noindex o poniendo contraseñas a determinados directorios. Además, también tienes la opción de controlar la frecuencia de rastreo a través de Google Search Console para gestionar mejor el crawl budget o presupuesto de rastreo.