Bonjour Ă tous,
Dans l’article d’aujourd’hui, nous nous intĂ©ressons aux systĂšmes et aux mĂ©thodes d’indexation et de rĂ©fĂ©rencement de Google. En effectuant une veille stratĂ©gique sur les algorithmes de Google, mon logiciel de veille m’a rapatriĂ© un article trĂšs intĂ©ressant portant sur le fonctionnement des crawlers et des diffĂ©rents autres composants de Google. Cet article a Ă©tĂ© rĂ©digĂ© par les deux fondateurs de Google, Sergey Brin et Larry Page. Vous pouvez lire cet article en suivant le lien sur le site de Stanford.edu
MĂȘme si les algorithmes du moteur sont confidentiels, grĂące au schĂ©ma fourni dans l’article, on peut tout de mĂȘme mieux comprendre comment marche l’indexation chez Google. Dans le livre d’Olivier Andrieu, on peut lire que Google possĂ©derait deux index : un index principal (oĂč il faut absolument y ĂȘtre pour ĂȘtre visible) et un index secondaire (pages dupliquĂ©es, pages ayant peu de liens externes, pages « mal liĂ©es », etc.).
Voici l’architecture « high level » (comme le dĂ©crit les fondateurs) de Google :

Source : Stanford (Article rédigé par Sergey Brin et Larry Page)
Voici ce que les fondateurs expliquent par rapport Ă cette structure [Extrait de l’article] :
In Google, the web crawling (downloading of web pages) is done by several distributed crawlers. There is a URLserver that sends lists of URLs to be fetched to the crawlers. The web pages that are fetched are then sent to the storeserver. The storeserver then compresses and stores the web pages into a repository. Every web page has an associated ID number called a docID which is assigned whenever a new URL is parsed out of a web page. The indexing function is performed by the indexer and the sorter. The indexer performs a number of functions. It reads the repository, uncompresses the documents, and parses them. Each document is converted into a set of word occurrences called hits. The hits record the word, position in document, an approximation of font size, and capitalization. The indexer distributes these hits into a set of « barrels », creating a partially sorted forward index. The indexer performs another important function. It parses out all the links in every web page and stores important information about them in an anchors file. This file contains enough information to determine where each link points from and to, and the text of the link.
The URLresolver reads the anchors file and converts relative URLs into absolute URLs and in turn into docIDs. It puts the anchor text into the forward index, associated with the docID that the anchor points to. It also generates a database of links which are pairs of docIDs. The links database is used to compute PageRanks for all the documents. […]
Pour rĂ©sumer en français, le crawling est effectuĂ© par diffĂ©rents robots. Il y a un « URLserver » qui envoie une liste d’URLs Ă extraire aux crawlers. Ces URLs seront ensuite envoyĂ©es dans le « storeserver ». Puis le storeserver compresses et stockes les pages web (URLs) dans un « entrepĂŽt ». Chaque page a un ID nommĂ© docID qui lui est assignĂ©e.
L’index fonctionne grĂące Ă deux composants : l' »indexer » et le « sorter » (outils d’indexation et de tri). L’indexer possĂšde plusieurs fonctions. Il lit les Ă©lĂ©ments dans l’entrepĂŽt, dĂ©compresse les documents et les dĂ©crypte. Chaque document est dĂ©coupĂ© en mots nommĂ©s « hits ». L’indexer met ces « hits » dans des silos (« barrels »), ce qui crĂ©e des index partiellement triĂ©s. L’indexer analyse tous les liens d’une page et stocke les ancres dans un fichier nommĂ© « anchors ». Ce fichier contient des informations qui indiquent d’oĂč provient un lien et le texte sur ce lien (l’ancre).
L’URLresolver lit les fichiers d’ancres et convertit les liens relatifs en liens absolus qui sont ensuite transformĂ©s en docIDs. Cela met l’ancre de texte dans l’index transfĂ©rĂ©, associĂ© au docID dont l’ancre y pointe. Cela gĂ©nĂšre Ă©galement une base de donnĂ©es de liens qui est utilisĂ©e pour calculer le PageRank de chaque page … đ
GrĂące Ă cet article, on comprend bien mieux comment Google fonctionne. Il n’y a pas qu’un outil, qu’un seul algorithme, mais plusieurs qui tournent en mĂȘme temps. Panda, Penguin, etc. ne seraient rien d’autres que des composants qui font partie de la chaĂźne de traitements maintenant.  Je n’ai traduit que l’essentiel de l’article car c’est la partie la plus intĂ©ressante pour comprendre le SEO Ă mon avis. En voyant le schĂ©ma, c’est typiquement une chaĂźne de traitements d’ingĂ©nierie linguistique informatique trĂšs poussĂ©e. Peu Ă peu, je vais me remettre dans les recherches scientifiques car j’aime beaucoup Ă©tudier les problĂ©matiques liĂ©es Ă ce domaine.
Si vous avez des questions sur le traitement automatique des donnĂ©es ou le rĂ©fĂ©rencement naturel, n’hĂ©sitez pas Ă me contacter avec cette adresse autoveille@gmail.com
Bon courage Ă tous !
VĂ©ronique Duong –
WordPress:
Jâaime chargement…