Pour le grand public, le fichier robots.txt ne signifie rien. Et même si vous avez l’habitude de surfer sur Internet, il est possible que vous ignoriez ce que ce terme à priori barbare veut dire. Si c’est votre cas, ces quelques lignes vous permettront certainement d’en savoir plus.
Qu’est-ce qu’un fichier robots.txt ?
Comme son nom le laisse supposer, le fichier robots.txt est un fichier texte. Il est principalement utilisé dans le référencement naturel des sites web. Il renferme des commandes à l’intention des robots d’indexation des moteurs de recherche. De cette façon, le fichier robots.txt signale à ces derniers les pages qu’ils peuvent indexer ou non.
En d’autres termes, c’est ce fichier que le moteur de recherche sollicite en premier lorsqu’il débute l’exploration d’un site web. Il est également appelé « Protocole d’exclusion des robots ». En effet, il permet d’éviter que certains contenus privés et/ou inutiles ne soient indexés par les moteurs de recherche. Il s’agit par exemple de vos fichiers et dossiers sensibles, ou encore de votre page de connexion.
La paternité du fichier robots.txt est attribuée à Martin Koster qui a travaillé en 1994 pour Webcrawler. À l’époque, l’objectif était de réguler le crawl des robots. En effet, cette activité engendrait plusieurs désagréments, comme le plantage des serveurs ou l’activation de scripts. À noter que le fichier robots.txt doit avoir une taille maximale de 500 Ko. Dans le cas contraire, Google va l’ignorer.
Format du fichier robots.txt
Le fichier robots.txt se présente sous forme d’un fichier ASCII. Il se trouve à la racine d’un site et renferme deux commandes distinctes.
En premier lieu, nous avons l’User-Agent qui indique précisément le robot concerné par les directives. Si cette commande prend la valeur *, cela signifie que tous les moteurs de recherche sont concernés.
Ensuite, il y a la commande Disallow. Elle précise les pages que les moteurs de recherche vont devoir enlever de l’indexation. Pour cela, chaque chemin ou page à exclure sera inscrite sur une ligne à part et doit obligatoirement commencer par /. Au cas où cette commande indique seulement la valeur /, cela veut dire « toutes les pages du site ».
Pour mieux comprendre, voici quelques exemples de fichier robots.txt. Avec « User-Agent : * » et « Disallow : / », il s’agit d’une exclusion de toutes les pages du site.
Pour exclure un robot particulier, ce sera « User-Agent : Nom du robot » et « Disallow : / » ou encore « User-Agent : * » et « Disallow : ». Si vous souhaitez exclure une page, vous utiliserez les commandes suivantes. « User-Agent : * » et « Disallow: /répertoire/chemin/page.html ».
Utilité du fichier robots.txt
Il est important de noter qu’un site web est exploré et indexé normalement par défaut par un moteur de recherche. Et ce, même s’il n’y a pas de fichier robots.txt sur ce site. Cela veut dire que la présence de ce dernier n’est pas obligatoire. Par contre, il s’avère très utile pour économiser ce que les spécialistes appellent le budget de crawl. Pour résumer, plus ce dernier est important, plus les chances que votre site soit bien indexé sur Google augmentent.
En d’autres termes, le fichier robots.txt est très précieux pour votre référencement naturel (SEO). Et ce, même si l’effet de ce fichier sur le SEO n’est pas toujours mécanique. Car une plateforme explorée plus efficacement par les moteurs de recherche va avoir un résultat palpable. En effet, ses meilleurs contenus vont être analysés et restitués dans les SERPs.