Bien utiliser le robots.txt | Outil SEO

Bonjour tout le monde !

Dans ce nouvel article, je ne pense pas vous apprendre quelque chose de très nouveau, mais ce serait plutôt un ensemble de piqûres de rappel sur le robots.txt. Il doit se trouver à la racine du site.

Ce fichier .txt est un « outil SEO »  très utile qui vous permet d’indiquer aux crawlers des moteurs de recherche d’indexer ou d’exclure certaines pages, certains répertoires de votre site. Il peut également servir à désindexer un site en entier … si vous ne souhaitez pas que les internautes vous trouvent (… ça me fait penser au nettoyage de la e-réputation, oui, cela pourrait aussi être utile dans ce cadre, mais c’est un autre sujet :)).

Vu qu’il peut désindexer un site complet, le robots.txt doit donc être manipulé avec précautions. De plus, il ne faut pas mettre de lignes vides entre chaque ligne de restriction.

Il est essentiellement composé de trois éléments :

  • User-agent (Crawlers)
  • Allow (Permettre)
  • Disallow (Interdire)

Les deux éléments qu’on utilise surtout sont :

  • User-agent (Crawlers)
  • Disallow (Interdire)

Le robots.txt permet surtout de dire ce qu’on ne veut pas que les crawlers indexent, d’où l’utilisation plus fréquente du Disallow que du Allow. Voici quelques exemples (je mets des numéros, mais il n’y en a pas évidemment) :

1) Cas de figure 1

  1. User-Agent: *
  2. Disallow: /

Ces deux lignes veulent dire qu’on demande à tous les crawlers de ne pas indexer le site !

2) Cas de figure 2

  1. User-Agent: *
  2. Disallow: /pdf

Ces deux lignes veulent dire qu’on demande à tous les crawlers de ne pas indexer le dossier ou le répertoire pdf !

3) Cas de figure 3

  1. User-Agent: Googlebot
  2. Disallow: /admin/login.html
  3. User-Agent: Baiduspider
  4. Disallow: /repertoire-1

Ces 4 lignes indiquent les choses suivantes : on dit à Googlebot (crawler de Google) de ne pas indexer la page web /admin/login.html, et parallèlement, on dit à Baiduspider (crawler de Baidu) de ne pas indexer le dossier /repertoire-1.

Voici une petite infographie en guise de mémento (créée par http://www.elliance.com en 2008) :

Infographie simple du robots.txt | AUTOVEILLE

Bonne restriction !

Véronique Duong –

Advertisements
12 commentaires

Laissez un petit mot à AUTOVEILLE ;)

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :