Bien utiliser le robots.txt | Outil SEO
Bonjour tout le monde !
Dans ce nouvel article, je ne pense pas vous apprendre quelque chose de très nouveau, mais ce serait plutôt un ensemble de piqûres de rappel sur le robots.txt. Il doit se trouver à la racine du site.
Ce fichier .txt est un « outil SEO »  très utile qui vous permet d’indiquer aux crawlers des moteurs de recherche d’indexer ou d’exclure certaines pages, certains répertoires de votre site. Il peut également servir à désindexer un site en entier … si vous ne souhaitez pas que les internautes vous trouvent (… ça me fait penser au nettoyage de la e-réputation, oui, cela pourrait aussi être utile dans ce cadre, mais c’est un autre sujet :)).
Vu qu’il peut désindexer un site complet, le robots.txt doit donc être manipulé avec précautions. De plus, il ne faut pas mettre de lignes vides entre chaque ligne de restriction.
Il est essentiellement composé de trois éléments :
- User-agent (Crawlers)
- Allow (Permettre)
- Disallow (Interdire)
Les deux éléments qu’on utilise surtout sont :
- User-agent (Crawlers)
- Disallow (Interdire)
Le robots.txt permet surtout de dire ce qu’on ne veut pas que les crawlers indexent, d’où l’utilisation plus fréquente du Disallow que du Allow. Voici quelques exemples (je mets des numéros, mais il n’y en a pas évidemment) :
1) Cas de figure 1
- User-Agent: *
- Disallow: /
Ces deux lignes veulent dire qu’on demande à tous les crawlers de ne pas indexer le site !
2) Cas de figure 2
- User-Agent: *
- Disallow: /pdf
Ces deux lignes veulent dire qu’on demande à tous les crawlers de ne pas indexer le dossier ou le répertoire pdf !
3) Cas de figure 3
- User-Agent: Googlebot
- Disallow: /admin/login.html
- User-Agent: Baiduspider
- Disallow: /repertoire-1
Ces 4 lignes indiquent les choses suivantes : on dit à Googlebot (crawler de Google) de ne pas indexer la page web /admin/login.html, et parallèlement, on dit à Baiduspider (crawler de Baidu) de ne pas indexer le dossier /repertoire-1.
Voici une petite infographie en guise de mémento (créée par http://www.elliance.com en 2008) :
Bonne restriction !
Véronique Duong –
Pingback: Bien utiliser le robots.txt | Outil SEO | Perso...
Pingback: Bien utiliser le robots.txt | Outil SEO | Marke...
Pingback: Bien utiliser le robots.txt | Outil SEO | cissi...
Pingback: Bien utiliser le robots.txt | Outil SEO | SEO -...
Pingback: Bien utiliser le robots.txt | SEO, SMO, SEM | S...
Pingback: Bien utiliser le robots.txt | Outil SEO | R&eac...
Pingback: Bien utiliser le robots.txt | Outil SEO | Digit...
Pingback: Bien utiliser le robots.txt | Outil SEO | Ma Ve...
Pingback: Bien utiliser le robots.txt | Outil SEO | SEO |...
Pingback: Bien utiliser le robots.txt | Outil SEO | SEO N...
Pingback: Bien utiliser le robots.txt | Outil SEO | Searc...
Pingback: Bien utiliser le robots.txt | Outil SEO | Blogg...