Comment Google crawle t-il et indexe t-il nos sites web ? [Infographie] #SEO

Bonjour tout le monde !

En faisant de la veille stratégique sur le blog de Neil Patel, j’ai à nouveau trouvé une superbe infographie de cet auteur ! L’illustration porte sur la méthode de crawl et d’indexation de Google 🙂 Je pense que cela pourrait intéresser tout référenceur. Rappelons tout d’abord que Google a une base de données deux fois plus grosse que celles de Yahoo! et Bing.

Et il faut aussi clairement mentionné une chose : lorsqu’on cherche sur Google, on ne cherche pas sur le « web », on ne cherche que dans l’index de Google, son corpus de pages web ! Google crawle et  indexe régulièrement les pages qu’il a déjà dans sa base et va à la découverte de nouvelles. Le moteur de recherche américain affiche les pages les plus « pertinentes » dans ses résultats par rapport à une requête tapée dans la barre de recherche.

Dans l’infographie, la notion de « web invisible » est également abordée. Le web invisible peut se définir comme étant une partie du web accessible directement avec les liens des pages mais non indexés par les moteurs de recherche. Les données dans le web profond (autre nom pour le web invisible) seraient plusieurs fois plus importantes que les données indexées par les robots.

Les spiders de Google visiteraient et parcouraient les pages web « comme » des humains. Ils visitent de page en page et  suivent de lien en lien. Ils essayent d’indexer toutes les pages possibles qui leurs sont proposées. Ce processus est celui du crawling ! Les crawls peuvent se faire de plusieurs par jour à tous les six mois ! C’est donc assez variable (plusieurs fois par jour pour les sites qui font souvent des mises à jour de leurs pages, et tous les six mois, pour des sites très statiques et petits).

Google aurait environ 1 000 000 serveurs pour crawler et afficher les pages web dans ses résultats. C’est gigantesque !

Neil Patel propose aussi dans son infographie 7 hypothèses qui feraient que Google (ou les autres moteurs de recherche) n’arrive pas à crawler un site :

  1. Un robots.txt mal configuré peut engendrer de vrais problèmes
  2. Un fichier .htaccess avec de mauvaises règles de redirections peut également en être la source
  3. Des méta tags mal écrits avec des balises mal fermées peuvent empêcher les spiders de bien indexer les pages web
  4. Les paramètres d’URLs qui sont mal configurés
  5. Un PageRank bas (est-ce toujours valable ? le PageRank ne serait plus mis à jour d’après John Mueller)
  6. Des problèmes de connectivité ou de DNS
  7. Un nom de domaine avec un historique spammy …

Ces quelques points ci-dessus sont effectivement à vérifier et à prendre en compte si jamais vous rencontrez des problèmes de crawl et d’indexation.

Voici l’infographie en question :

Comment Google crawle t-il et indexe t-il un site web ?  - AUTOVEILLE

Avez-vous d’autres points à rajouter ? Je pense qu’on aurait pu ajouter un point au niveau des astuces techniques sur les problèmes d’indexation : c’est de regarder si dans les pages, il n’y a pas une méta robots « noindex » ou « none » qui empêche le site de se faire indexer. Le sitemap XML peut également être intéressant à implémenter si on veut faire indexer ses pages web plus rapidement.

Bon courage à tous !

V̩ronique Duong Рautoveille@gmail.com