Bien utiliser le robots.txt | Outil SEO

Bonjour tout le monde !

Dans ce nouvel article, je ne pense pas vous apprendre quelque chose de trÚs nouveau, mais ce serait plutÎt un ensemble de piqûres de rappel sur le robots.txt. Il doit se trouver à la racine du site.

Ce fichier .txt est un « outil SEO »  trĂšs utile qui vous permet d’indiquer aux crawlers des moteurs de recherche d’indexer ou d’exclure certaines pages, certains rĂ©pertoires de votre site. Il peut Ă©galement servir Ă  dĂ©sindexer un site en entier … si vous ne souhaitez pas que les internautes vous trouvent (… ça me fait penser au nettoyage de la e-rĂ©putation, oui, cela pourrait aussi ĂȘtre utile dans ce cadre, mais c’est un autre sujet :)).

Vu qu’il peut dĂ©sindexer un site complet, le robots.txt doit donc ĂȘtre manipulĂ© avec prĂ©cautions. De plus, il ne faut pas mettre de lignes vides entre chaque ligne de restriction.

Il est essentiellement composé de trois éléments :

  • User-agent (Crawlers)
  • Allow (Permettre)
  • Disallow (Interdire)

Les deux Ă©lĂ©ments qu’on utilise surtout sont :

  • User-agent (Crawlers)
  • Disallow (Interdire)

Le robots.txt permet surtout de dire ce qu’on ne veut pas que les crawlers indexent, d’oĂč l’utilisation plus frĂ©quente du Disallow que du Allow. Voici quelques exemples (je mets des numĂ©ros, mais il n’y en a pas Ă©videmment) :

1) Cas de figure 1

  1. User-Agent: *
  2. Disallow: /

Ces deux lignes veulent dire qu’on demande Ă  tous les crawlers de ne pas indexer le site !

2) Cas de figure 2

  1. User-Agent: *
  2. Disallow: /pdf

Ces deux lignes veulent dire qu’on demande Ă  tous les crawlers de ne pas indexer le dossier ou le rĂ©pertoire pdf !

3) Cas de figure 3

  1. User-Agent: Googlebot
  2. Disallow: /admin/login.html
  3. User-Agent: Baiduspider
  4. Disallow: /repertoire-1

Ces 4 lignes indiquent les choses suivantes : on dit Ă  Googlebot (crawler de Google) de ne pas indexer la page web /admin/login.html, et parallĂšlement, on dit Ă  Baiduspider (crawler de Baidu) de ne pas indexer le dossier /repertoire-1.

Voici une petite infographie en guise de mémento (créée par http://www.elliance.com en 2008) :

Infographie simple du robots.txt | AUTOVEILLE

Bonne restriction !

VĂ©ronique Duong –

Publicité
12 commentaires

Laissez un petit mot Ă  AUTOVEILLE ;)

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez Ă  l’aide de votre compte WordPress.com. DĂ©connexion /  Changer )

Image Twitter

Vous commentez Ă  l’aide de votre compte Twitter. DĂ©connexion /  Changer )

Photo Facebook

Vous commentez Ă  l’aide de votre compte Facebook. DĂ©connexion /  Changer )

Connexion Ă  %s

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.

%d blogueurs aiment cette page :