Bonjour tout le monde !
En faisant de la veille stratĂ©gique sur le blog de Neil Patel, j’ai Ă nouveau trouvĂ© une superbe infographie de cet auteur ! L’illustration porte sur la mĂ©thode de crawl et d’indexation de Google đ Je pense que cela pourrait intĂ©resser tout rĂ©fĂ©renceur. Rappelons tout d’abord que Google a une base de donnĂ©es deux fois plus grosse que celles de Yahoo! et Bing.
Et il faut aussi clairement mentionnĂ© une chose : lorsqu’on cherche sur Google, on ne cherche pas sur le « web », on ne cherche que dans l’index de Google, son corpus de pages web ! Google crawle et indexe rĂ©guliĂšrement les pages qu’il a dĂ©jĂ dans sa base et va Ă la dĂ©couverte de nouvelles. Le moteur de recherche amĂ©ricain affiche les pages les plus « pertinentes » dans ses rĂ©sultats par rapport Ă une requĂȘte tapĂ©e dans la barre de recherche.
Dans l’infographie, la notion de « web invisible » est Ă©galement abordĂ©e. Le web invisible peut se dĂ©finir comme Ă©tant une partie du web accessible directement avec les liens des pages mais non indexĂ©s par les moteurs de recherche. Les donnĂ©es dans le web profond (autre nom pour le web invisible) seraient plusieurs fois plus importantes que les donnĂ©es indexĂ©es par les robots.
Les spiders de Google visiteraient et parcouraient les pages web « comme » des humains. Ils visitent de page en page et suivent de lien en lien. Ils essayent d’indexer toutes les pages possibles qui leurs sont proposĂ©es. Ce processus est celui du crawling ! Les crawls peuvent se faire de plusieurs par jour Ă tous les six mois ! C’est donc assez variable (plusieurs fois par jour pour les sites qui font souvent des mises Ă jour de leurs pages, et tous les six mois, pour des sites trĂšs statiques et petits).
Google aurait environ 1 000 000 serveurs pour crawler et afficher les pages web dans ses rĂ©sultats. C’est gigantesque !
Neil Patel propose aussi dans son infographie 7 hypothĂšses qui feraient que Google (ou les autres moteurs de recherche) n’arrive pas Ă crawler un site :
- Un robots.txt mal configuré peut engendrer de vrais problÚmes
- Un fichier .htaccess avec de mauvaises rĂšgles de redirections peut Ă©galement en ĂȘtre la source
- Des mĂ©ta tags mal Ă©crits avec des balises mal fermĂ©es peuvent empĂȘcher les spiders de bien indexer les pages web
- Les paramĂštres d’URLs qui sont mal configurĂ©s
- Un PageRank bas (est-ce toujours valable ? le PageRank ne serait plus mis Ă jour d’aprĂšs John Mueller)
- Des problÚmes de connectivité ou de DNS
- Un nom de domaine avec un historique spammy …
Ces quelques points ci-dessus sont effectivement Ă vĂ©rifier et Ă prendre en compte si jamais vous rencontrez des problĂšmes de crawl et d’indexation.
Voici l’infographie en question :
Avez-vous d’autres points Ă rajouter ? Je pense qu’on aurait pu ajouter un point au niveau des astuces techniques sur les problĂšmes d’indexation : c’est de regarder si dans les pages, il n’y a pas une mĂ©ta robots « noindex » ou « none » qui empĂȘche le site de se faire indexer. Le sitemap XML peut Ă©galement ĂȘtre intĂ©ressant Ă implĂ©menter si on veut faire indexer ses pages web plus rapidement.
Bon courage Ă tous !
VĂ©ronique Duong – autoveille@gmail.com