Définition : qu’est-ce qu’un fichier robots.txt ?

Le fichier robots.txt, aussi appelé protocole d’exclusion des robots, permet d’empêcher les robots d’exploration des moteurs de recherche d’accéder à certains fichiers de votre site. Il joue ainsi le rôle d’un guide auprès des robots moteurs de recherche, que ce soit les Googlebots, Bingbots, ou Yandex bots, dans leur exploration de votre site, en leur bloquant l’accès à certaines URLs. C’est un fichier que vous devez faire figurer dans votre site si vous souhaitez le faire ranker.

img

Ce fichier est placé à la racine d’un site web. C’est donc l’un des premiers fichiers analysés par les robots d’exploration. Pour vérifier qu’il s’y trouve bien, il vous suffit de taper dans la barre de recherche l’adresse de votre site à la suite de laquelle vous rajoutez “/robots.txt”. S’il ne s’y trouve pas, une erreur 404 s’affichera.

A quoi sert un fichier robots.txt ?

Fonctionnement de ce fichier

Ce fichier permet d’interdire l’exploration, et donc l’indexation :

  • De certaines pages de votre site à tous les robots d’exploration des moteurs de recherche
  • De votre site en général par certains robots en particulier
  • De certaines pages de votre site à certains robots

De plus, le fichier robots.txt indique aux robots d’exploration des moteurs de recherche votre sitemap, afin qu'ils le trouvent aisément.

Intérêt du fichier robots.txt en SEO

Ce fichier robots.txt, s’il est bien utilisé, permet d’optimiser le référencement naturel de votre site web. En effet, il permet :

  • D’éviter que les robots indexent les contenus dupliqués
  • De fournir aux robots explorateurs le sitemap de votre site
  • D’économiser le “budget crawl” des robots de Google en excluant les pages peu qualitatives ou peu pertinentes de votre site internet

Dans quels cas est utilisé un fichier robot.txt ?

Pour les sites de e-commerce

C’est un fichier qui est fortement utilisé notamment pour les sites de e-commerce, car il permet d’y régler les problèmes de contenu dupliqué provenant, par exemple, des recherches à facette. En effet, la recherche à facette est une méthode de navigation que l’on retrouve sur de nombreux sites de e-commerce, et qui permet aux utilisateurs de trouver rapidement ce qu’ils recherchent en filtrant les différents produits proposés sur le site. Or, un tel mode de recherche provoque la création de nombreuses pages au contenu très similaire, à cause de la multitude de combinaisons possibles entre les différents filtres et catégories. Ces pages risquent alors de se cannibaliser entre elles, ainsi que de diluer le PageRank capté par vos pages stratégiques.

C’est alors que rentre en jeu le fichier robot.txt, que vous pouvez utiliser pour empêcher l’exploration de ces pages par les robots des moteurs de recherche, tout en les laissant accessibles aux utilisateurs.

Pour certaines pages spécifiques de votre site web

Ce fichier robot.txt est également utilisé pour empêcher Google d’explorer certaines pages très précises de votre site web .Ces pages sont généralement les suivantes :

  • Les images
  • Les PDFs
  • Les vidéos
  • Les fichiers excel

En effet, ce sont des pages qui sont généralement utilisées pour attirer des leads. Par exemple, si vous souhaitez obtenir les contacts des utilisateurs avant de leur donner accès à ces documents, le fichier robot.txt vous permet d’en bloquer l’accès à tous ceux n’ayant pas rempli les informations demandées.

Pour garder privées certaines parties de votre site

En tant que webmaster, il y a sûrement certaines parties de votre site que vous souhaitez garder privé, comme certains fichiers personnels, ou encore des paramètres d’URLs.

Pour éviter la surcharge de votre site web

Finalement, ce fichier robot.txt peut être utilisé pour spécifier un délai de crawl afin d'éviter que vos serveurs ne soient surchargés par les crawlers des moteurs de recherche. En effet, quand les crawlers explorent plusieurs contenus de votre site à la fois, cela peut provoquer une surcharge de vos serveurs n’ayant pas la capacité de charger autant de contenus simultanément.

Comment créer un fichier robots.txt ?

Le fichier robots.txt est créé ou manuellement, ou généré automatiquement par la majorité de CMS comme WordPress, et se trouve obligatoirement à la racine d’un site. Mais vous pouvez également avoir recours à des outils en ligne pour la création de ce fichier.

Si vous souhaitez créer votre fichier robots.txt manuellement, il vous suffit d’utiliser n’importe quel éditeur de texte en se conformant à certaines règles :

  • Syntaxe et instructions : User-agent, disallow, et allow.
  • Appeler son fichier robots.txt.
  • Une structure à adopter : une instruction par ligne sans en laisser aucune de vide.

Attention, votre fichier robots.txt ne doit pas être d’une taille supérieure à 512 Ko.

Créer son fichier robots.txt avec Rank Math

Créer son fichier robots.txt est très simple. Pour cela, il vous suffit de vous rendre dans l’onglet “general settings” de votre plugin, puis de cliquer sur “edit robots.txt”. Vous pouvez alors rédiger votre fichier directement dans le plugin, qui l’intégrer automatiquement à votre site.

Attention, si vous aviez déjà ajouté un fichier robots.txt à votre site avant d’installer le plugin Rank Math, et que vous souhaitez désormais vous occuper de sa gestion par le biais du plugin, vous devez supprimer le fichier de votre site avant de pouvoir le modifier sur Rank Math.

Créer son fichier robots.txt avec Yoast

Vous pouvez également utiliser le plugin Yoast pour la gestion de votre fichier robots.txt. De même que pour Rank Math, le mode de fonctionnement est assez simple. Pour cela, rendez-vous dans le menu “référencement” du plugin. Puis cliquez sur “outils”, puis sur “modifier le fichier”. Si vous n’aviez pas encore ajouté le fichier sur le plugin, il vous suffit de le créer en cliquant sur le bouton associé. Vous n’avez plus qu’à y apporter les modifications souhaitées avant de cliquer sur enregistrer.

Quel langage utiliser pour un fichier robots.txt ?

Le fichier robots.txt utilise un langage précis dans lequel on retrouve quelques expressions régulières, que l’on appelle les Regex, et qui vous permettent de simplifier l’écriture du robots.txt. Voici quelques-unes de ces expressions communes.

User-agent

Cette commande permet de faire appel à des moteurs de recherche spécifiques. Le fichier robot.txt est le premier fichier que scannent les robots des moteurs de recherche. Ils vérifient alors qu’ils aient bien été mentionnés dans ce fichier. S’ils voient leur nom apparaître, ils liront par la suite les commandes qui leur ont été attribuées.

Pour mentionner un moteur de recherche, il vous suffit d’insérer son nom à la suite de la commande User-agent. Par exemple, si vous souhaitez mentionner Google, vous écrirez “User-agent: Googlebot”. De plus, si vous souhaitez centraliser toutes les commandes adressées aux moteurs de recherche en les identifiant en une seule fois, il vous suffit d'écrire la commande suivante : “User-agent: * ”.

Disallow

Cette commande permet d’empêcher les crawlers d’explorer certaines parties de votre site web. Vous ne pouvez toutefois ajouter qu’une commande par ligne, ce qui explique pourquoi l’on trouve de multiples lignes de commandes “disallow” à la suite dans les fichiers robots.txt.

Par exemple, si vous inscrivez “Disallow: */catalog/” après votre commande “User-agent: Googlebot”, vous interdisez aux robots de Google de visiter toutes vos pages de catalogue.

Allow

Cette commande ne s’applique qu’à un crawler de Google, appelé Googlebot, et lui donne accès à une page ou sous-dossier, quand bien même l’accès à sa page parent lui serait refusé.

Par exemple, si vous ajoutez la commande “Allow: /wp-admin/admin-ajax.php” à la suite de la commande “Disallow: /wp-admin/”, vous autorisez le Googlebot à accéder au sous-dossier “admin-ajax.php”, sans toutefois l'autoriser à explorer votre page “wp-admin”.

Crawl-Delay

La commande Crawl-Delay vous permet de demander aux crawlers d’attendre quelques secondes avant d’explorer votre site. Par exemple, en inscrivant “Crawl-Delay : 20”, vous demandez aux robots du ou des moteurs de recherche concernés de patienter 20 secondes avant d’entrer sur votre site.

Sitemap

Comme vous vous en doutez, cette commande permet d’indiquer directement aux crawlers votre sitemap. Pour cela, il vous suffit d’insérer l’URL de votre sitemap à la suite de la commande “Sitemap:”.

Syntaxe des robots.txt

Il existe quelques éléments de syntaxe propres aux fichiers robots.txt qu’il est important de connaître :

  • / : Il permet de séparer les fichiers. Si vous laissez simplement un “/” sans ajouter le nom d’un des fichiers de votre site, cela signifie que la commande concerne l’entièreté de vos pages. Par exemple, la consigne “Disallow: /” signifie que vous interdisez l’accès à tout votre site aux robots des moteurs de recherche concernés.
  • * : L’astérix permet d’englober l’ensemble des éléments d’un site liés à un ou plusieurs critères indiqués juste après. Par exemple, la commande suivante “Disallow: *?filter=*” interdit aux moteurs de recherche l’accès à toutes les URLs contenant “?filter=”.
  • # : Le hashtag permet d’ajouter des commentaires sur votre fichier robots.txt. Cela permet de donner des informations supplémentaires à tout lecteur du fichier, sans pour autant que les moteurs de recherche ne les prennent pour des consignes.
  • $ : Le signe dollar permet de donner une consigne concernant toutes les URLs comportant un certain élément, et ce quelque soit les slugs précédents cet élément dans l’URL. Par exemple, la consigne “Disallow: /solutions/$” interdit aux moteurs de recherche d’accéder à toutes les URLs contenant l’élément “/solutions/”, quelques soient les slugs inscrits à sa suite.

Quelques conseils d’optimisation de ce fichier

Pour optimiser votre fichier robots.txt, il est important d’adopter quelques bonnes pratiques :

  • Veiller à ne pas bloquer les URLs de votre site web que vous souhaitez faire indexer
  • Garder en tête que les liens posés sur les pages bloquées ne seront pas suivis
  • Ne pas utiliser le fichier robots.txt pour bloquer l’affichage de données sensibles dans la SERP. En effet, ce fichier n’empêche pas systématiquement l’indexation des URLs bloquées, car ces pages peuvent très bien s’indexer si d’autres sites ou pages pointent vers elles
  • Certains moteurs de recherche ont plusieurs robots d’exploration. Spécifier les directives pour chacun de ces robots n’est pas obligatoire, mais permet d’affiner l’analyse de votre contenu
img

Afin de vous assurer que toutes vos URLs importantes sont indexables par Google, vous pouvez tester votre fichier robots.txt. Pour cela, il vous suffit d’inscrire votre site sur la Google Search Console, puis de cliquer sur Exploration dans le menu, puis sur Outil de test du fichier robots.txt.

Limites du fichier robots.txt

Ce fichier robots.txt présente toutefois des limites dans son utilité. Ces limites sont les suivantes :

  • Les directives de ce fichier robots.txt ne sont pas compatibles avec tous les moteurs de recherche : Ce fichier donne, certes, des instructions, mais il ne dépend que du robot d’exploration d’y obéir ou non. C’est pourquoi il est conseillé d'avoir recours à d’autres méthodes de blocage pour protéger certaines données de son site web. Vous pouvez, par exemple, protéger les fichiers privés de votre site à l’aide d’un mot-de-passe.
  • Les robots d’exploration n'interprètent pas tous la syntaxe de la même manière : Il est donc difficile de trouver la syntaxe appropriée pour que tous les robots comprennent vos directives.
  • Une page non autorisée dans le fichier robots.txt peut toujours être indexée si d’autres sites pointent vers elle.