Aprender SEO

Robots.txt Qué es y cómo tener uno bien optimizado para SEO

Pinterest LinkedIn Tumblr

Las visitas frecuentes que realizan los rastreadores de los motores de búsqueda a tu sitio web son una buena señal. Sin embargo, la forma en que éstos indexan tu web pueden generar algunos problemas.

Cuando un robot de Google, por ejemplo, empieza a analizar tu sitio web no sabe qué páginas son las que deseas posicionar, cuáles no, qué partes quieres mantener ocultas, etc.

Necesitas decirle cómo tratar las diferentes partes de tu sitio web a través de indicaciones llamadas meta-etiquetas; y para ello requieren de algo que hable su mismo idioma, como sucede con el archivo robots.txt.

¿Qué es el archivo robots.txt?

robots-txtUn archivo robots.txt es un conjunto de instrucciones para bots que sirve para controlar las actividades de los rastreadores dentro tu sitio web.

Piensa en un archivo robots.txt como si fuera un «Código de conducta» colocado en la pared de un gimnasio, un bar o un centro comunitario: el cartel en sí no tiene poder para hacer cumplir las reglas enumeradas, pero los usuarios «buenos» seguirán las reglas, mientras que es probable que los «rebeldes» las rompan, y sean expulsados.

Un bot es un programa informático automatizado que interactúa con sitios web y aplicaciones. Hay buenos bots y bots malos, por así decirlo, y un tipo de bot bueno es el robot rastreador de una web.

Estos bots analizan las páginas web e indexan el contenido para que puedan aparecer en los resultados de los motores de búsqueda.

El robots.txt ayuda a administrar las actividades de estos rastreadores web para que no sobrecarguen el servidor que aloja el sitio o para que no indexen las páginas que no están destinadas para ser visitadas.

¿Cómo funciona un archivo robots.txt?

Un archivo robots.txt es solo un archivo de texto, sin código de marcado HTML (de ahí la extensión .txt).

El archivo robots.txt está alojado en el servidor web, al igual que cualquier otro elemento del sitio.

De hecho, puedes ver el robots.txt de cualquier página escribiendo la URL completa del dominio, y luego agregando /robots.txt.

Por ejemplo:  https://www.amazon.com/robots.txt 

El archivo no está enlazado desde ninguna otra parte del sitio, por lo que es probable que los usuarios no lo encuentren, pero la mayoría de los robots de búsqueda web buscarán primero este archivo antes de rastrear el resto del contenido de la web.

Aunque un archivo robots.txt proporciona instrucciones para los robots, en realidad no puede hacer cumplir las instrucciones.

Es importante tener en cuenta que todos los subdominios necesitan su propio archivo robots.txt.

Por ejemplo, mientras www.cloudflare.com tiene su propio archivo, todos sus subdominios (blog.cloudflare.com, community.cloudflare.com, etc.) también tienen el suyo propio.

¿Por qué debes tener un archivo Robots.txt?

Los archivos robots.txt controlan el acceso del rastreador a ciertas áreas de un sitio; aunque esto puede ser peligroso si por accidente no permites que Googlebot rastree toda la web.

Hay algunas situaciones en las que un archivo robots.txt puede ser muy útil, como por ejemplo:

  1. Evitar que aparezca contenido duplicado en las SERPs (ten en cuenta que los meta robots a menudo son una mejor opción para esto).
  2. Mantener en privado secciones enteras de un sitio web (por ejemplo, el sitio de preparación de tu equipo de ingeniería).
  3. Evitar que las páginas de resultados de búsquedas internas aparezcan en las SERPs.
  4. Especificar la ubicación de los sitemaps.
  5. Evitar que los motores de búsqueda indexen ciertos archivos en tu sitio web (imágenes, archivos PDF, etc.).
  6. Especificar un retraso de rastreo para evitar que tus servidores se sobrecarguen cuando los rastreadores cargan múltiples partes de contenido a la vez.

Si no tienes áreas en tu web a las que quieras controlar el acceso, es muy posible que no necesites un archivo robots.txt.

Parámetros que debes conocer

Antes de comenzar, debes saber que hay una serie de comandos que debes conocer para poder crear tu propio robots.txt. Son los siguientes:

  1. User-agent: Específica a qué robot afectarán todas las indicaciones que pongas debajo de éste.
  2. Disallow: Indica al bot que el contenido está bloqueado y no queremos que lo rastree.
  3. Allow: Permite el rastreo y se usa para hacer alguna excepción del caso anterior.
  4. Sitemap: le dice al bot dónde está el sitemap de tu página.
  5. Crawl-delay: indica unos segundos de retardo entre cada página escaneada.

Para crear un archivo robots.txt utiliza Notepad, Notepad++ o Bloc de notas. No necesitas nada complejo. También puedes editar o crearlo a través de tu plugin de SEO, como Yoast o All in One SEO Pack.

Cómo crear un robots.txt optimizado para el SEO (para WordPress)

Ahora que sabes qué es y lo importante que es un archivo robots.txt, vamos a crear un robots.txt optimizado para SEO, pero para el CMS WordPress, que es el que utilizamos casi todos.

Aquí no veremos en profundidad todo sobre un robots.txt, porque se necesita mucho espacio y tiempo. Simplemente nos centraremos en redactar una guía de cómo crear uno optimizado para SEO.

Una vez tengas abierto tu procesador de texto. Comenzamos.

#1 Cosas a bloquear en tu robots.txt

Lo primero es decirle a qué robot deseamos indicarle instrucciones y cuáles son.

Quedaría así:

Como las indicaciones son a cualquier agente, se coloca *. Si fuese a alguno concreto, se pondría el nombre, por ejemplo, Googlebot.

Abajo, la indicación de disallow está con una “/”, que indica a todo el sitio.

Existen algunos archivos y directorios en el sitio de WordPress que deberían estar bloqueados desde el inicio. Los directorios a los que se debe rechazar el acceso en el archivo robot.txt son el directorio «cgi-bin» y los directorios estándar de WP.

Las directivas utilizadas para lo anterior son estas:

#2 Bloqueos de acuerdo con tu configuración de WordPress

bloqueo bots con robot.txtDebes saber cómo utiliza tu WordPress las etiquetas o categorías para estructurar el contenido.

Si estás utilizando categorías, debes bloquear los archivos de etiquetas de los motores de búsqueda y viceversa.

En primer lugar, comprueba la base, para ello accede al Panel de administración> Configuración> Permalinks.

De forma predeterminada, la base es una etiqueta si el campo está en blanco. Debes deshabilitar la etiqueta en el robot.txt como se indica a continuación:

  • Disallow: /tag/

Si no estás utilizando la categoría, debes bloquearla en el robot.txt como se indica a continuación:

  • Disallow: /category/

Si estás utilizando ambas, categorías y etiquetas, entonces no tienes que hacer nada en el archivo robot.txt.

Si no usas etiquetas ni categorías, bloquea ambas en robot.txt como se indica a continuación:

  • Disallow: /category/
  • Disallow: /tag/

#3 Bloquear archivos de WordPress

Se usan diferentes archivos en WordPress para mostrar el contenido, que no necesitan estar disponibles para los motores de búsqueda.

Así que también tienes que bloquearlos. Los diferentes archivos utilizados para mostrar el contenido son archivos PHP, archivos JS, archivos INC, archivos CSS, etc.

Tienes que bloquearlos en el robot.txt como se indica a continuación:

Mucho cuidado con bloquear archivos javascript, css o php porque podría ser que el robot de Google no leyera correctamente tu página y eso te perjudicaría.

#4 Bloqueo de spam y otros

Hasta ahora ya has creado un robots.txt bueno para SEO, en el que has bloqueado todo lo que no sirve y has dejado solo artículos, páginas, categoría e imágenes disponibles para los buscadores.

Pero el archivo robots.txt sirve para mucho más que eso; pues te protege de bots que solo rastrean tu contenido, te roban tu estrategia o arquitectura y utilizan tus recursos sin aportar nada en absoluto.

Echa un vistazo a la lista completa de esos bots aquí.

#5 Testea tu robots.txt

check robot-txtUna vez que hayas reunido todo lo anterior en un solo archivo y hayas añadido tus propias reglas, llega el momento de probar el archivo. No vaya a ser que bloquees lo que no debas.

Lo primero que debes hacer es dar de alta tu sitio en Google Search Console. Una vez que hayas seguido todos los pasos (si tienes dudas visita este enlace) utiliza el probador de robots.txt.

Para ello sube el archivo robots.txt que has creado y ejecútalo como si fueses Google.

Allí podrás ver los posibles errores; ahora, si todo está bien, súbelo a tu sitio web.

Este archivo debes mantenerlo actualizado e ir añadiendo, por ejemplo, los cambios que pueda haber en WordPress, nuevos sitios que te hagan spam de comentarios, en tus analíticas o en las mismas directrices de Google, etc.

Ejemplo de robots.txt

Para finalizar, y aunque ya has aprendido cómo hacer tú mismo un archivo robots.txt, te dejamos un ejemplo ya hecho, para que tan solo cambies determinados datos que aparecen por los tuyos.

Analiza y cuida bien qué hace este archivo, porque su rendimiento es diferente según las características de tu servidor y tu página web.

Aquí tienes el ejemplo de robots.txt listo para utilizar.

Recuerda que, tener un archivo robots.txt en tu sitio web ayudará a que los robots de rastreo sepan interpretar mejor las partes de la web y se centren en lo que de verdad tiene importancia.

Autor

2 Comentarios

  1. Hola Edu muchas gracias por el post, tengo una duda sobre robots que escuche en youtube y decia algo asi como que es mejor no tener nada porque google entra si o si a todo el sitio y al no darle los permisos en un robots era perjudicial porque era como negarle la entrada al bot de google y generaba malos resultados o posicion al sitio, que tiene esto de cierto para este año 2020? muchas gracias

    • Edu Coromina Responder

      Hola Leonardo!

      Ciertamente el archivo robots.txt tiene que manejarse con cuidado, y aconsejo hacerlo especialmente en ecommerce mediano/grandes para bloquear filtros o URLs autogeneradas. Es un archivo delicado y a veces la gente utiliza una «plantilla» del robots.txt cuando siempre debe personalizarse a las necesidades de cada uno.

      Otro factor importante es no bloquear por robots.txt URLs o secciones que sin embargo aparecen en el sitemaps, así como entender la pérdida de linkjuice de ciertas URLs que puedan apuntar a URLs bloqueadas por dicho archivo.

      También sirve como una forma de bloquear bots de herramientas como Screaming Frog o Netpeak Spider de ojos curiosos.

      Si las directrices se configuran bien, el archivo robots.txt no perjudica.

      Un abrazo!

Deja un Comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.