archive

Archives de Tag: Crawl de Google

Bonjour tout le monde !

En faisant de la veille stratĂ©gique sur le blog de Neil Patel, j’ai Ă  nouveau trouvĂ© une superbe infographie de cet auteur ! L’illustration porte sur la mĂ©thode de crawl et d’indexation de Google 🙂 Je pense que cela pourrait intĂ©resser tout rĂ©fĂ©renceur. Rappelons tout d’abord que Google a une base de donnĂ©es deux fois plus grosse que celles de Yahoo! et Bing.

Et il faut aussi clairement mentionnĂ© une chose : lorsqu’on cherche sur Google, on ne cherche pas sur le « web », on ne cherche que dans l’index de Google, son corpus de pages web ! Google crawle et  indexe rĂ©guliĂšrement les pages qu’il a dĂ©jĂ  dans sa base et va Ă  la dĂ©couverte de nouvelles. Le moteur de recherche amĂ©ricain affiche les pages les plus « pertinentes » dans ses rĂ©sultats par rapport Ă  une requĂȘte tapĂ©e dans la barre de recherche.

Dans l’infographie, la notion de « web invisible » est Ă©galement abordĂ©e. Le web invisible peut se dĂ©finir comme Ă©tant une partie du web accessible directement avec les liens des pages mais non indexĂ©s par les moteurs de recherche. Les donnĂ©es dans le web profond (autre nom pour le web invisible) seraient plusieurs fois plus importantes que les donnĂ©es indexĂ©es par les robots.

Les spiders de Google visiteraient et parcouraient les pages web « comme » des humains. Ils visitent de page en page et  suivent de lien en lien. Ils essayent d’indexer toutes les pages possibles qui leurs sont proposĂ©es. Ce processus est celui du crawling ! Les crawls peuvent se faire de plusieurs par jour Ă  tous les six mois ! C’est donc assez variable (plusieurs fois par jour pour les sites qui font souvent des mises Ă  jour de leurs pages, et tous les six mois, pour des sites trĂšs statiques et petits).

Google aurait environ 1 000 000 serveurs pour crawler et afficher les pages web dans ses rĂ©sultats. C’est gigantesque !

Neil Patel propose aussi dans son infographie 7 hypothĂšses qui feraient que Google (ou les autres moteurs de recherche) n’arrive pas Ă  crawler un site :

  1. Un robots.txt mal configuré peut engendrer de vrais problÚmes
  2. Un fichier .htaccess avec de mauvaises rĂšgles de redirections peut Ă©galement en ĂȘtre la source
  3. Des mĂ©ta tags mal Ă©crits avec des balises mal fermĂ©es peuvent empĂȘcher les spiders de bien indexer les pages web
  4. Les paramĂštres d’URLs qui sont mal configurĂ©s
  5. Un PageRank bas (est-ce toujours valable ? le PageRank ne serait plus mis Ă  jour d’aprĂšs John Mueller)
  6. Des problÚmes de connectivité ou de DNS
  7. Un nom de domaine avec un historique spammy …

Ces quelques points ci-dessus sont effectivement Ă  vĂ©rifier et Ă  prendre en compte si jamais vous rencontrez des problĂšmes de crawl et d’indexation.

Voici l’infographie en question :

Comment Google crawle t-il et indexe t-il un site web ?  - AUTOVEILLE

Avez-vous d’autres points Ă  rajouter ? Je pense qu’on aurait pu ajouter un point au niveau des astuces techniques sur les problĂšmes d’indexation : c’est de regarder si dans les pages, il n’y a pas une mĂ©ta robots « noindex » ou « none » qui empĂȘche le site de se faire indexer. Le sitemap XML peut Ă©galement ĂȘtre intĂ©ressant Ă  implĂ©menter si on veut faire indexer ses pages web plus rapidement.

Bon courage Ă  tous !

VĂ©ronique Duong – autoveille@gmail.com

Publicité
%d blogueurs aiment cette page :