Définition : qu’est-ce qu’un fichier robots.txt ?

Le fichier robots.txt, aussi appelé protocole d’exclusion des robots, permet d’empêcher les robots d’exploration des moteurs de recherche d’accéder à certains fichiers de votre site. Il joue ainsi le rôle d’un guide auprès des moteurs de recherche dans leur exploration de votre site, en leur bloquant l’accès à certaines URL.

Ce fichier est placé à la racine d’un site web. C’est donc l’un des premiers fichiers analysés par les robots d’exploration. Pour vérifier qu’il s’y trouve bien, il vous suffit de taper dans la barre de recherche l’adresse de votre site à la suite de laquelle vous rajoutez “/robots.txt”. S’il ne s’y trouve pas, une erreur 404 s’affichera.

img

A quoi sert un fichier robots.txt ?

Fonctionnement de ce fichier

Ce fichier permet d’interdire l’exploration, et donc l’indexation :

  • De certaines pages de votre site à tous les robots d’exploration des moteurs de recherche
  • De votre site en général par certains robots en particulier
  • De certaines pages de votre site à certains robots

Par exemple, le fichier robots.txt vous permet d’intégrer un intranet à votre site web, auquel seuls vos salariés auront accès.

De plus, le fichier robots.txt indique aux robots d’exploration des moteurs de recherche votre sitemap.

Intérêt du fichier robots.txt en SEO

Ce fichier robots.txt, s’il est bien utilisé, permet d’optimiser le référencement naturel de votre site web. En effet, il permet :

  • D’éviter que les robots indexent les contenus dupliqués
  • De fournir aux robots explorateurs le sitemap de votre site
  • D’économiser le “budget crawl” des robots de Google en excluant les pages peu qualitatives ou peu pertinentes de votre site internet

Comment gérer un fichier robots.txt ?

Création du fichier

Le fichier robots.txt est créé ou manuellement, ou généré automatiquement par la majorité de CMS comme WordPress, et se trouve obligatoirement à la racine d’un site. Mais vous pouvez également avoir recours à des outils en ligne pour la création de ce fichier.

Si vous souhaitez créer votre fichier robots.txt manuellement, il vous suffit d’utiliser n’importe quel éditeur de texte en se conformant à certaines règles :

  • Syntaxe et instructions : User-agent, disallow, et allow.
  • Appeler son fichier robots.txt.
  • Une structure à adopter : une instruction par ligne sans en laisser aucune de vide.

Attention, votre fichier robots.txt ne doit pas être d’une taille supérieure à 512 Ko.

Langage du fichier robots.txt

Le fichier robots.txt utilise un langage précis dans lequel on retrouve quelques expressions régulières, que l’on appelle les Regex, et qui vous permettent de simplifier l’écriture du robots.txt.

Voici quelques unes de ces expressions communes :

  • User-agent : *
    Autorise l’accès au fichier à tous les robots
  • Disallow : /*.gif$
    Cette commande empêche le crawl des URLs se finissant par “.gif”, autrement dit des images gifs
  • Disallow : /private
    Empêche le crawl de toutes les URLs commençant par /private
  • Disallow : /intranet/
    Interdit l'exploration du dossier intranet
  • Allow : /*.css?
    Autorise l’accès à toutes les ressources css
  • Sitemap
    Indique aux moteurs de recherche l’adresse du sitemap

Test du fichier

Tester votre fichier robots.txt est très facile. Il vous suffit d’inscrire votre site sur la Google Search Console, puis de cliquer sur Exploration dans le menu, puis sur Outil de test du fichier robots.txt.

Il est important de tester ce fichier, car cela vous permet de vérifier que toutes vos URLs importantes sont indexables par Google.

img

Quelques conseils d’optimisation de ce fichier

Pour optimiser votre fichier robots.txt, il est important d’adopter quelques bonnes pratiques :

  • Veiller à ne pas bloquer les URLs de votre site web que vous souhaitez faire indexer
  • Garder en tête que les liens posés sur les pages bloquées ne seront pas suivis
  • Ne pas utiliser le fichier robots.txt pour bloquer l’affichage de données sensibles dans la SERP. En effet, ce fichier n’empêche pas systématiquement l’indexation des URLs bloquées, car ces pages peuvent très bien s’indexer si d’autres sites ou pages pointent vers elles
  • Certains moteurs de recherche ont plusieurs robots d’exploration. Spécifier les directives pour chacun de ces robots n’est pas obligatoire, mais permet d’affiner l’analyse de votre contenu

Limites du fichier robots.txt

Ce fichier robots.txt présente toutefois des limites dans son utilité. Ces limites sont les suivantes :

  • Les directives de ce fichier robots.txt ne sont pas compatibles avec tous les moteurs de recherche : Ce fichier donne, certes, des instructions, mais il ne dépend que du robot d’exploration d’y obéir ou non. C’est pourquoi il est conseillé d'avoir recours à d’autres méthodes de blocage pour protéger certaines données de son site web. Vous pouvez, par exemple, protéger les fichiers privés de votre site à l’aide d’un mot-de-passe.
  • Les robots d’exploration n'interprètent pas tous la syntaxe de la même manière : Il est donc difficile de trouver la syntaxe appropriée pour que tous les robots comprennent vos directives.
  • Une page non autorisée dans le fichier robots.txt peut toujours être indexée si d’autres sites pointent vers elle.