Skip links

Robots.txt

Definición

El archivo robots.txt, también conocido como protocolo de exclusión de robots, se utiliza para impedir que los rastreadores de los motores de búsqueda accedan a determinados archivos de su sitio. Actúa como una guía para los bots de los motores de búsqueda, ya sean Googlebots, Bingbots o Yandex bots, en el rastreo de su sitio, bloqueándoles el acceso a ciertas URLs. Este es un archivo que debes incluir en tu sitio si quieres que se posicione.

Este archivo se coloca en la raíz de un sitio web. Por lo tanto, es uno de los primeros archivos analizados por los rastreadores. Para comprobar que está ahí, simplemente escriba la dirección de su sitio en la barra de búsqueda y añada “/robots.txt” después. Si no está, se mostrará un error 404.

Webmaster en pleine rédaction du robots.txt de son site

¿Para qué sirve un archivo robots.txt?

Cómo funciona este archivo

Este archivo permite prohibir la exploración, y, por tanto, la indexación:

  • Ciertas páginas de su sitio a todos los rastreadores de los motores de búsqueda
  • Su sitio en general por ciertos robots en particular
  • Ciertas páginas de su sitio a ciertos robots

Además, el archivo robots.txt indica su sitemap a los rastreadores de los motores de búsqueda, para que puedan encontrarlo fácilmente.

Interés del archivo robots.txt en el SEO

Este archivo robots.txt, si se utiliza correctamente, permite optimizar el posicionamiento orgánico de su sitio web. En efecto, permite:

  • Evitar que los robots indexen contenidos duplicados
  • Para proporcionar a los rastreadores el mapa del sitio web
  • Ahorre el presupuesto de rastreo de los robots de Google excluyendo las páginas de baja calidad o irrelevantes de su sitio web

¿Cuándo debo usar un archivo robot.txt?

Para los sitios e-commerce

Es un archivo muy empleado, sobre todo en los sitios e-commerce, ya que permite resolver los problemas de contenido duplicado que surgen, por ejemplo, de las búsquedas facetadas. Se trata de un método de navegación que se encuentra en muchos sitios de comercio electrónico y que permite a los usuarios encontrar rápidamente lo que buscan filtrando los diferentes productos que se ofrecen en el sitio. Sin embargo, este método de búsqueda conduce a la creación de muchas páginas con contenidos muy similares, debido a la multitud de combinaciones posibles entre los diferentes filtros y categorías. Estas páginas corren el riesgo de canibalizarse entre sí, así como de diluir el PageRank capturado por sus páginas estratégicas.

Aquí es donde entra en juego el archivo robot.txt, que puede utilizar para evitar que estas páginas sean rastreadas por los robots de los motores de búsqueda, pero dejándolas accesibles para los usuarios.

Para páginas específicas de su sitio web

Este archivo robot.txt también se utiliza para evitar que Google rastree ciertas páginas muy específicas de su sitio web:

  • Imágenes
  • PDFs
  • Vídeos
  • Archivos de Excel

En efecto, se trata de páginas que se utilizan generalmente para atraer a los clientes potenciales. Por ejemplo, si quiere obtener los contactos de los usuarios antes de darles acceso a estos documentos, el archivo robot.txt le permite bloquear el acceso a todos aquellos que no hayan rellenado la información solicitada.

Para mantener la privacidad de ciertas partes de su sitio web

Como administrador de un sitio web, es probable que haya algunas partes de su sitio que desee mantener en privado, como ciertos archivos personales o la configuración de la URL.

Para evitar la sobrecarga de su sitio web

Por último, este archivo robot.txt puede emplearse para especificar un retraso de rastreo para evitar que sus servidores se vean sobrecargados por los rastreadores de los motores de búsqueda. En efecto, cuando los rastreadores exploran varios contenidos de su sitio al mismo tiempo, puede provocar una sobrecarga de sus servidores al no tener capacidad para cargar tantos contenidos simultáneamente.

¿Cómo crear un archivo robots.txt?

El archivo robots.txt se diseña manualmente o es generado automáticamente por la mayoría de los CMS, como WordPress, y debe encontrarse en la raíz de un sitio. Pero también puede utilizar herramientas en línea para originar este archivo.

Si desea crear su archivo robots.txt manualmente, puede utilizar cualquier editor de texto siguiendo ciertas reglas:

  • Sintaxis e instrucciones: User-agent, disallow y allow.
  • Llamar a su archivo robots.txt.
  • Una estructura a adoptar: una instrucción por línea sin dejar ninguna vacía.

Tenga cuidado, su archivo robots.txt no debe ser mayor de 512 Kb.

Creación del archivo robots.txt con Rank Math

Crear su archivo robots.txt es muy sencillo. Para ello, solo tiene que ir a la pestaña “ajustes generales” de su plugin, y luego hacer clic en “editar robots.txt“. A continuación, puede escribir su archivo directamente en el plugin, que lo integrará automáticamente en su sitio.

Por favor, tenga en cuenta que si ya había añadido un archivo robots.txt a su sitio antes de instalar el plugin Rank Math, y ahora quiere gestionarlo a través del plugin, debe eliminar el archivo de su sitio antes de poder editarlo en Rank Math.

Cree su archivo robots.txt con Yoast

También puedes utilizar el plugin Yoast para gestionar tu archivo robots.txt. Al igual que con las matemáticas de rango, su funcionamiento es bastante sencillo. Para ello, diríjase al menú “referenciación” del plugin. A continuación, haga clic en “herramientas” y luego en “editar archivo”. Si todavía no ha añadido el archivo al plugin, solo tiene que crearlo haciendo clic en el botón asociado. Todo lo que tiene que hacer es realizar los cambios deseados antes de hacer clic en “guardar”.

Qué lenguaje utilizar para un archivo robots.txt

El archivo robots.txt usa un lenguaje específico en el que hay unas expresiones regulares, llamadas Regexes, que permiten simplificar la escritura de robots.txt. Estas son algunas de las expresiones más comunes.

User-agent:

Este comando permite diseñar motores de búsqueda específicos. El archivo robot.txt es el primer archivo que escanean los robots de los motores de búsqueda. A continuación, comprueban que han sido mencionados en este expediente. Si ven aparecer su nombre, entonces leerán los comandos que les han sido asignados.

Para mencionar un motor de búsqueda, basta con insertar su nombre después del comando User-agent. Por ejemplo, si quiere mencionar a Google, escribiría “User-agent: Googlebot”. Además, si desea centralizar todos los comandos dirigidos a los motores de búsqueda, identificándolos a la vez, solo tiene que escribir el siguiente comando: “User-agent: * “.

Disallow: /

Este comando evita que los rastreadores rastreen ciertas partes de su sitio web. Sin embargo, solo se puede añadir un comando por línea, por lo que hay varias líneas de comandos “disallow” seguidas en los archivos robots.txt.

Por ejemplo, si pone “Disallow: */catalog/” después del comando “User-agent: Googlebot”, está impidiendo que los robots de Google visiten todas las páginas de su catálogo.

Allow: /

Este comando solo se aplica a un rastreador de Google, llamado Googlebot, y le da acceso a una página o sub carpeta, incluso si se le niega el acceso a su página principal.

Por ejemplo, si añade el comando “Allow: /wp-admin/admin-ajax.php” después del comando “Disallow: /wp-admin/”, permite que Googlebot acceda a la sub carpeta “admin-ajax.php”, pero no que rastree su página “wp-admin”.

Crawl-Delay:

El comando Crawl-Delay le permite pedir a los rastreadores que esperen unos segundos antes de rastrear su sitio. Por ejemplo, al introducir “Crawl-Delay: 20“, usted pide a los robots del motor o motores de búsqueda que esperen 20 segundos antes de entrar en su sitio.

Sitemap:

Como puede imaginar, este comando le permite indicar directamente su sitemap a los rastreadores. Para ello, basta con insertar la URL de su mapa del sitio después del comando “Sitemap:”.

Sintaxis de robots.txt

Hay algunos elementos de sintaxis específicos de los archivos robots.txt que son importante conocer:

  • /: Separa los archivos. Si simplemente deja un “/” sin añadir el nombre de uno de los archivos de su sitio, significa que el comando es para todo su sitio. Por ejemplo, el comando “Disallow: /” significa que está negando el acceso a todo su sitio a los robots de los motores de búsqueda pertinentes.
  • *: El asterisco permite incluir todos los elementos de un sitio vinculados a uno o varios de los criterios indicados inmediatamente después. Por ejemplo, el siguiente comando “Disallow: *?filter=*” prohíbe a los motores de búsqueda acceder a todas las URL que contengan “?filter=”.
  • #: El hashtag le permite añadir comentarios a su archivo robots.txt. Esto permite dar información adicional a cualquier lector del archivo, sin que los motores de búsqueda lo confundan con instrucciones.
  • $: El signo de dólar permite dar una pauta para todas las URL que contengan un determinado elemento, independientemente de las babosas que precedan a ese elemento en la URL. Por ejemplo, la instrucción “Disallow: /solutions/$” prohíbe a los motores de búsqueda el acceso a todas las URL que contengan el elemento “/solutions/”, independientemente de los slugs que aparezcan después.

Consejos para optimizar el archivo robots.txt

Para optimizar su archivo robots.txt, es importante adoptar algunas buenas prácticas:

  • Asegúrese de no bloquear las URLs de su sitio web que desea que sean indexadas
  • Tenga en cuenta que los enlaces colocados en páginas bloqueadas no serán seguidos
  • No utilice el archivo robots.txt para bloquear la visualización de datos sensibles en las SERP. En efecto, este archivo no impide sistemáticamente la indexación de las URL bloqueadas, ya que estas páginas pueden perfectamente ser indexadas si otros sitios o páginas apuntan a ellas
  • Algunos motores de búsqueda tienen varios rastreadores. Especificar las directrices para cada uno de estos rastreadores no es obligatorio, pero ayuda a afinar el análisis de contenidos

Para asegurarse de que todas sus URL importantes son indexadas por Google, puede probar su archivo robots.txt. Para ello, solo tienes que registrar tu sitio en Google Search Console, hacer clic en Crawl en el menú y, a continuación, en Robots.txt Testing Tool.

Límites del archivo robots.txt

Sin embargo, este archivo robots.txt tiene algunas limitaciones en su utilidad. Estas limitaciones son las siguientes:

  • Las directivas de este archivo robots.txt no son compatibles con todos los motores de búsqueda: este archivo da instrucciones, pero depende del rastreador obedecerlas o no. Por eso es aconsejable emplear otros métodos de bloqueo para proteger ciertos datos de su sitio web. Como proteger los archivos privados de su sitio con una contraseña.
  • No todos los rastreadores interpretan la sintaxis de la misma manera: por eso es difícil encontrar la sintaxis adecuada para que todos los rastreadores entiendan sus directrices.
  • Una página no permitida en el archivo robots.txt puede seguir siendo indexada si otros sitios apuntan a ella.

Las definiciones más populares

análisis de backlinks
etiqueta h1
Trust Flow
data seo
índice de popularidad
link juice
atributo alt
capullo semántico
meta descripción
malla interna
contenido duplicado

¡Aumente su visibilidad!

No dude en ponerse en contacto con nosotros para obtener un presupuesto gratuito de nuestros distintos servicios.

Notez ce page