archive

Archives de Tag: veille SEO

Bonjour tout le monde !

AprĂšs avoir effectuĂ© ma veille stratĂ©gique d’informations avec mon logiciel de veille automatique, mon outil de collecte de donnĂ©es m’a ramenĂ© une infographie plutĂŽt intĂ©ressante qui indique 4 raisons prouvant qu’avoir qu’un seul site web ne suffit pas pour rĂ©ussir dans le domaine de marketing digital.

Voici les 4 raisons sans plus tarder :

  1. Obtenir plus de visiteurs grùce aux SEO, SEA, SMO, et au web marketing en général comme les newsletters, les e-mailings, etc.
  2. Mettre en place une stratégie de conversion avancée avec grùce aux médias en ligne (la TV, le print, etc., les médias traditionnels apportent moins de conversions)
  3. Penser Ă  la rentabilitĂ© des moyens investis dans le digital marketing : les outils en ligne peuvent ĂȘtre souvent gratuits (on peut toujours se dĂ©brouiller) par rapport aux moyens des mĂ©dias traditionnels (TV, print, etc.)
  4. Mesurer facilement le ROI des médias digitaux (SEO, SEA, etc.) mis en place avec les outils Analytics contrairement aux médias traditionnels (télévision, catalogue papier, etc.)

Voici l’infographie en question, rĂ©alisĂ©e par SushiDigital :

4 raisons qui montre qu'un site web n'est pas suffisant pour rĂ©ussir en marketing digital - AUTOVEILLECet article s’adresse aux sociĂ©tĂ©s qui estiment encore que le web marketing et/ou le mobile marketing sont secondaires. Vous pouvez lire Ă  quel point vous pouvez augmenter vos visites, vos ventes, rentabiliser vos stratĂ©gies marketing grĂące aux mĂ©dias digitaux (vs. aux mĂ©dias traditionnels).

Si vous avez des questions, n’hĂ©sitez pas Ă  me contacter pour avoir de l’aide dans votre stratĂ©gie de marketing digital !

Bon courage Ă  tous,

VĂ©ronique Duong – autoveille@gmail.com

Publicité

Bonjour tout le monde !

En effectuant ma veille d’informations stratĂ©gique avec mon outil de veille automatisĂ©e, j’ai trouvĂ© une infographie trĂšs intĂ©ressante qui explique que certaines tĂąches ou actions, considĂ©rĂ©es comme une phase ou une Ă©tape du « SEO », n’ont rien Ă  voir avec les moteurs de recherche ou le rĂ©fĂ©rencement naturel.

Le mot « SEO » est utilisĂ© un peu pour dĂ©crire tout et n’importe quoi en webmarketing maintenant. Entre les confusions de SEA, SEM, SEO, certaines personnes ne savent pas de quoi elles parlent … Le SEA (Search Engine Adversiting), c’est le rĂ©fĂ©rencement payant avec les liens sponsorisĂ©s. Le SEO (Search Engine Optimization), c’est le rĂ©fĂ©rencement naturel et le SEM (Search Engine Marketing) englobe les deux, mais certains l’utilisent pour dĂ©signer le SEA …

Mais maintenant, on parle surtout de « OC / DC » ! Vous allez me dire qu’est ce que c’est ce que ça encore … En gros, c’est l’optimisation de contenu (OC) pour dĂ©couvrir des conversions (DC).

Voici les informations principales extraites de l’infographie rĂ©alisĂ©e par copyblogger :

Optimisations on-site

  • Avoir un site web avec un temps de chargement rapide (en 3 secondes maximum) et qui soit Responsive Design
  • CrĂ©er du contenu utile, informatif pour les internautes
  • Optimiser et tester les call-to-actions afin d’avoir plus de leads et de conversions

Optimisations off-site

  • Être stratĂ©gique dans sa dĂ©finition de l’audience Ă  cibler
  • Utiliser des mots-clĂ©s qui tournent autour du contexte du site ( penser au Knowledge Graph, au web sĂ©mantique)
  • Employer le marketing sur les rĂ©seaux sociaux (vive le SMO !)
  • Augmenter la visibilitĂ© de son site et de ses contenus en les promouvant sur les autres sites (netlinking … encore et toujours !)

Pensez OC/DC dùs maintenant 🙂

Pourquoi le SEO est mort ? Explications - AUTOVEILLE

Qu’avez-vous pensĂ© de cette infographie ? Moi, je viens d’apprendre un nouveau concept, le OC/DC ! Je vais ajouter ça sur mon CV, tiens ^^ TrĂȘve de plaisanterie, n’hĂ©sitez pas Ă  commenter et Ă  m’Ă©crire si vous avez des questions sur le web marketing en gĂ©nĂ©ral (Asie ou Europe) : autoveille@gmail.com

VĂ©ronique Duong –

Bonjour tout le monde !

Dans l’article d’aujourd’hui, j’ai quelques astuces SEO Ă  partager avec ceux qui ont des sites ou des blogs qui fonctionnent sous WordPress. Ce CMS est trĂšs pratique pour crĂ©er un blog rapidement et gratuitement mais il possĂšde Ă©galement pas mal de dĂ©fauts (notamment le problĂšme de Duplicate Content massif Ă  cause de la gĂ©nĂ©ration automatique de pages via les tags et les catĂ©gories). GrĂące Ă  mon outil de veille automatique, je suis tombĂ©e sur une infographie qui donne des conseils pour penser systĂ©matiquement au rĂ©fĂ©rencement naturel d’un site qui marche sur WordPress.

L’illustration donne des informations en trois parties : mots-clĂ©s, SEO on-site, SEO off-site

Voici les astuces pour la partie sur les mots-clés :

  • Choisir des mots-clĂ©s Ă  trafic qui sont pertinents et en rapport avec les sujets abordĂ©s sur le site ou le blog (on ne prend pas des mots-clĂ©s populaires juste pour faire du SEO …)

Voici les astuces SEO on-site pour WordPress :

  • Inclure un mot-clĂ© dans l’URL
  • Inclure des mots-clĂ©s dans le titre de l’article (qui sera repris en title)
  • Inclure des mots-clĂ©s dans le corps de l’article avec une densitĂ© de mots clĂ© tournant autour de 2%
  • Nommer les images et/ou les vidĂ©os avec des mots-clĂ©s
  • Remplir les attributs alt avec des mots-clĂ©s lors du tĂ©lĂ©chargement des images dans le CMS
  • Utiliser le plugin Yoast (seulement pour WordPress.org) pour remplir les mĂ©ta descriptions avec des mots-clĂ©s

Voici les astuces SEO off-site pour WordPress :

  • Faire des liens internes entre les anciens et les nouveaux articles
  • Installer les boutons de partage pour que les utilisateurs puissent partager les Ă©lĂ©ments sur les rĂ©seaux sociaux
  • Partager les articles sur Google+ avec une description unique incluant un ou deux mots-clĂ©s
  • Partager les articles sur Pinterest avec une description unique incluant un ou deux mots-clĂ©s

Je trouve que sur la partie SEO off-site, cela est un peu incomplet, j’ajoute alors les astuces suivantes pour vous, mes chers lecteurs :

  • Connecter les profils Twitter, Facebook, Linkedin, etc. Ă  la plateforme de publication. Ainsi, dĂšs la publication de l’article, il sera automatiquement partagĂ© sur ces rĂ©seaux sociaux
  • Installer aussi la Search Console de Google, les Webmaster Tools de Pinterest, etc. pour suivre la performance du site dans les outils

Voici l’illustration en question, rĂ©alisĂ©e par TheWorkAtHomeWife :

Astuces SEO pour les sites sous WordPress - AUTOVEILLE

Cet article est dĂ©diĂ© aux grands dĂ©butants en SEO et qui commencent Ă  travailler sur WordPress. Si vous avez des commentaires et / ou des questions sur le SEO, des choses que vous souhaitez approfondir par rapport Ă  vos connaissances, n’hĂ©sitez pas Ă  m’Ă©crire Ă  autoveille@gmail.com

Bon courage Ă  tous,

VĂ©ronique Duong – autoveille@gmail.com

Bonjour tout le monde !

En effectuant ma veille informationnelle avec mon logiciel de veille stratégique, je suis tombée au hasard sur une infographie assez intéressante sur les différences entre le référencement naturel (SEO) et le référencement payant (PPC).

Cet article s’adresse aux dĂ©butants dans le Search. Mais pour ceux qui veulent avoir une illustration Ă  partager avec leurs Ă©quipes commerciales ou webmarketing pour pouvoir expliquer aux clients les diffĂ©rences, elle est Ă©galement faite pour vous !

Je ne vais pas reprendre tout ce qui est Ă©crit dans l’illustration, mais donner mon avis sur le SEO + le SEA : si vous venez de commencer avec un nouveau site, une nouvelle marque, je vous conseille de mettre en place un peu de SEM pendant les 6 premiers mois afin de vous rendre visible tout de suite, et en parallĂšle, travaillez votre SEO pendant ce temps. AprĂšs les 6 premiers mois, lorsque le SEO aura fait ses premiers effets positifs en termes de classement, vous pouvez rĂ©duire le SEM au fur et Ă  mesure. Le SEO vous permet d’ĂȘtre positionnĂ© Ă  long terme dans les rĂ©sultats de recherche avec une bonne maintenance du site.

Les rĂ©sultats du SEA sont instantanĂ©s, plus vous payez cher pour un mot clĂ©, plus vous allez ĂȘtre positionnĂ© premier. En SEO, c’est avec du travail et avec des techniques « malignes » (pas spammy non plus !) que vous allez pouvoir faire indexer correctement votre site, et le classer haut dans les rĂ©sultats de recherche naturels.

différences entre SEO et SEA / PPC - AUTOVEILLE

Cette infographie n’a pas Ă©tĂ© signĂ©e, et si vous savez qui est l’auteur, merci de m’en faire part ! Si vous avez des questions sur le Search, le SEO et le SEA, n’hĂ©sitez pas Ă  m’Ă©crire pour en discuter. Je serais ravie de vous lire et de vous aider !

Bon courage Ă  tous !

VĂ©ronique Duong – autoveille@gmail.com

Bonjour tout le monde,

AprĂšs avoir effectuĂ© une veille informationnelle avec mon logiciel de veille stratĂ©gique, je suis tombĂ©e sur une infographie intĂ©ressante donnant des astuces et des conseils pour protĂ©ger un site du Negative SEO. Pour rappel, le Negative SEO est un ensemble de techniques de « hack » employĂ©es pour attaquer le SEO (et l’e-rĂ©putation, en mĂȘme temps) des concurrents qui sont bien classĂ©s dans les rĂ©sultats de recherche de Google.

Voici les astuces et les conseils donnĂ©es par l’infographie :

1. Revoyez et surveillez vos liens externes / backlinks afin de voir que vous n’avez pas de liens qui ressemblent Ă  du spam, des liens provenant de sites de mauvaise qualitĂ©, etc. Les outils de la Search Console (anciennement « Webmaster Tools ») peuvent vous donner beaucoup d’informations intĂ©ressantes.

2. Commencez à déployer une stratégie de nettoyage de liens :

  • contactez les webmasters de sites afin de faire enlever les liens qu’ils font vers leurs mauvais sites
  • utilisez l’outil de Google pour dĂ©savouer les liens de qualitĂ© mĂ©diocre

3. Faites une veille stratégique de liens avec un outil de veille comme Google Alerts pour voir quelles nouvelles mentions vous avez eues sur la toile !

4. Surveillez également vos bons liens :

  • vĂ©rifiez si les liens de qualitĂ© que vous avez sont toujours actifs (et non devenus des pages 404)
  • vĂ©rifiez aussi que les liens de qualitĂ© ne sont pas passĂ©s de Dofollow Ă  Nofollow

L’illustration en question a Ă©tĂ© rĂ©alisĂ©e par Link Search Tools :

Protéger son site du Negative SEO - AUTOVEILLE

Qu’avez-vous pensĂ© de ces astuces ? Avez-vous dĂ©jĂ  fait fasse Ă  un cas de Negative SEO ? Si oui, comment en ĂȘtes-vous sorti ? Combien de temps a t-il durĂ© pour la phase de nettoyage et de « guĂ©rison » ?

N’hĂ©sitez surtout pas Ă  partager vos expĂ©riences avec moi et mes lecteurs, nous serons ravis de vous lire !

Bon courage à tous (et bonnes vacances pour ceux qui partent ou qui lisent AUTOVEILLE sur la plage 😉 )

VĂ©ronique Duong – autoveille@gmail.com

Bonjour tout le monde !

En effectuant ma veille informationnelle, mon logiciel de veille automatique m’a rapatriĂ©e une nouvelle infographie de Neil Patel ! Elle donne des astuces pour fidĂ©liser une audience sur un site. Je suis complĂ©tement addict au blog de Neil Patel ! Je le suis, j’ai créé des flux RSS dessus, etc. Il est vraiment super intĂ©ressant, et vous pouvez en apprendre tellement dessus.

Pour faire revenir des visiteurs sur un site, la premiĂšre chose, c’est de se concentrer sur la qualitĂ© des contenus. Surveiller les statistiques qui ont rĂ©ellement un intĂ©rĂȘt sur l’audience comme les visites, les nouveaux visiteurs et les taux de rebond. On note aussi qu’un bon CTR ne veut pas toujours signifier que l’engagement des visiteurs est aussi bien. En effet, des articles trop gĂ©nĂ©riques gĂ©nĂšrent des visites mais peu d’engagement. Il faut quelque chose de plus spĂ©cifique. En effet, il se peut que les visiteurs viennent une fois acheter un produit ou un service, puis ne reviennent plus par la suite par manque de mises Ă  jour ou d’innovation.

Dans ce cas, ils risquent de ne pas ĂȘtre correctement fidĂ©lisĂ©s. Il faut alors leurs proposer de nouveaux produits, des mises Ă  jour des service, de nouvelles Ă©ditions, des contenus de qualitĂ© pour donner envie aux gens de revenir sur le site.

De plus, l’emailing ou la newsletter est toujours trĂšs efficace pour fidĂ©liser une clientĂšle et pour construire une vraie audience loyale. Envoyez des emailings Ă  vos anciens clients et donnez leur envie de revenir (et de faire des conversions Ă  nouveau !) sur votre site. Souvenez-vous : il vaut mieux avoir 100 visiteurs de qualitĂ© que 1000 qui ne le sont pas.

Le partenariat permet aussi de se crĂ©er une audience plus riche et intĂ©ressante. Cherchez des partenaires qui travaillent sur la mĂȘme thĂ©matique que vous et faites des Ă©changes de « services » (interviews, articles invitĂ©s, etc.). Ces techniques vont permettre de booster les audiences de l’un et l’autre, et certainement crĂ©er plus de trafic pour chacun des partenaires.

Mis Ă  part un contenu de qualitĂ©, il faut aussi penser au design du site ! Plus un site est beau et original, plus il donnera envie aux internautes de retourner sur le site ou tout simplement de le partager avec des contacts rien que pour l’aspect esthĂ©tique du site. Cette mĂ©thode vous permettra aussi d’avoir plus de visiteurs, et peut ĂȘtre des visiteurs de qualitĂ© qui pourront convertir ! 🙂

N’hĂ©sitez pas Ă  tester aussi les mĂ©thodes citĂ©es mais Ă©galement Ă  innover. GrĂące Ă  l’innovation, vous allez pouvoir attirer des visiteurs en permanence. En mettant aussi Ă  jour vos pages web, les internautes reviendront aussi trĂšs naturellement sur votre site.

Comment fidéliser son audience sur le web ? - AUTOVEILLE

Cette infographie est un bon rĂ©sumĂ© des procĂ©dĂ©s pour fidĂ©liser une audience loyale. Qu’en avez-vous pensĂ© ? L’avez-vous trouvĂ©e utile ? Je suis intĂ©ressĂ©e d’avoir vos avis sur les infographies de Neil Patel. J’en publie rĂ©guliĂšrement sur mon blog, et les trouver vous intĂ©ressantes ? Personnellement, je les trouve trĂšs bien (sinon je ne les publierai pas haha) et trĂšs Ă©ducatives.

Pour information, je ne fais pas de « sponsor » pour Neil Patel. Je reprends ces infographies car elles le mĂ©ritent.

Bon courage Ă  tous !

VĂ©ronique Duong – autoveille@gmail.com

Bonjour tout le monde !

A environ 2 semaines de la fin d’annĂ©e, il n’est pas encore trop tard pour connaĂźtre les tendances Web Design pour l’annĂ©e prochaine (2015) !

En effectuant ma collecte automatique d’infographies avec mon logiciel de veille, je suis tombĂ©e sur une illustration qui prĂ©sente 6 prĂ©dictions pour 2015 dans le domaine :

  1. Le Responsive Design (qui deviendra un indispensable en 2015 et pour les années à venir)
  2. La Typographie (une jolie police, les effets « flat » (du tout plat, sans ombre ou relief), etc. seront aussi des must-have !)
  3. Les Images (qui devront ĂȘtre plus grandes et nettes car elles pourraient inciter les internautes Ă  rester plus longtemps sur le site et Ă  rĂ©duire le taux de rebond ! Ceci dit, il faut aussi faire attention pour le SEO : trop de grandes images peuvent ralentir le temps de chargement du site. Il faut Ă©galement penser Ă  optimiser les contenus textuels autour et leurs attributs alt).
  4. Les Blogs (qui sont plus attractifs qu’un site totalement « corporate » pour vendre)
  5. Le Flat design (la tendance du « flat » va ĂȘtre trĂšs Ă  la mode l’annĂ©e prochaine ! Par exemple, le nouveau logo de Google est en « flat » design)
  6. Le Storytelling interactif (la plupart des internautes lisent en diagonal. Il faut leurs proposer des contenus multimédias riches pour inciter leurs engagements et à acheter).

L’infographie en question a Ă©tĂ© rĂ©alisĂ©e par l’agence TisIndia :

Top 6 de tendances en web design en 2015 - AUTOVEILLE

Voyez-vous d’autres points Ă  ajouter ? De mon cĂŽtĂ©, je trouve dommage que l’illustration n’est pas abordĂ©e les sujets de « long scrolling » page ou de l’effet parallax. Mais peut ĂȘtre que ces deux points seront moins Ă  la mode en 2015 ? Qu’en pensez-vous ?

Vos commentaires sont les bienvenus ! 🙂

Bon courage Ă  tous !

VĂ©ronique Duong – autoveille@gmail.com

Bonjour tout le monde !

En faisant de la veille stratĂ©gique sur le blog de Neil Patel, j’ai Ă  nouveau trouvĂ© une superbe infographie de cet auteur ! L’illustration porte sur la mĂ©thode de crawl et d’indexation de Google 🙂 Je pense que cela pourrait intĂ©resser tout rĂ©fĂ©renceur. Rappelons tout d’abord que Google a une base de donnĂ©es deux fois plus grosse que celles de Yahoo! et Bing.

Et il faut aussi clairement mentionnĂ© une chose : lorsqu’on cherche sur Google, on ne cherche pas sur le « web », on ne cherche que dans l’index de Google, son corpus de pages web ! Google crawle et  indexe rĂ©guliĂšrement les pages qu’il a dĂ©jĂ  dans sa base et va Ă  la dĂ©couverte de nouvelles. Le moteur de recherche amĂ©ricain affiche les pages les plus « pertinentes » dans ses rĂ©sultats par rapport Ă  une requĂȘte tapĂ©e dans la barre de recherche.

Dans l’infographie, la notion de « web invisible » est Ă©galement abordĂ©e. Le web invisible peut se dĂ©finir comme Ă©tant une partie du web accessible directement avec les liens des pages mais non indexĂ©s par les moteurs de recherche. Les donnĂ©es dans le web profond (autre nom pour le web invisible) seraient plusieurs fois plus importantes que les donnĂ©es indexĂ©es par les robots.

Les spiders de Google visiteraient et parcouraient les pages web « comme » des humains. Ils visitent de page en page et  suivent de lien en lien. Ils essayent d’indexer toutes les pages possibles qui leurs sont proposĂ©es. Ce processus est celui du crawling ! Les crawls peuvent se faire de plusieurs par jour Ă  tous les six mois ! C’est donc assez variable (plusieurs fois par jour pour les sites qui font souvent des mises Ă  jour de leurs pages, et tous les six mois, pour des sites trĂšs statiques et petits).

Google aurait environ 1 000 000 serveurs pour crawler et afficher les pages web dans ses rĂ©sultats. C’est gigantesque !

Neil Patel propose aussi dans son infographie 7 hypothĂšses qui feraient que Google (ou les autres moteurs de recherche) n’arrive pas Ă  crawler un site :

  1. Un robots.txt mal configuré peut engendrer de vrais problÚmes
  2. Un fichier .htaccess avec de mauvaises rĂšgles de redirections peut Ă©galement en ĂȘtre la source
  3. Des mĂ©ta tags mal Ă©crits avec des balises mal fermĂ©es peuvent empĂȘcher les spiders de bien indexer les pages web
  4. Les paramĂštres d’URLs qui sont mal configurĂ©s
  5. Un PageRank bas (est-ce toujours valable ? le PageRank ne serait plus mis Ă  jour d’aprĂšs John Mueller)
  6. Des problÚmes de connectivité ou de DNS
  7. Un nom de domaine avec un historique spammy …

Ces quelques points ci-dessus sont effectivement Ă  vĂ©rifier et Ă  prendre en compte si jamais vous rencontrez des problĂšmes de crawl et d’indexation.

Voici l’infographie en question :

Comment Google crawle t-il et indexe t-il un site web ?  - AUTOVEILLE

Avez-vous d’autres points Ă  rajouter ? Je pense qu’on aurait pu ajouter un point au niveau des astuces techniques sur les problĂšmes d’indexation : c’est de regarder si dans les pages, il n’y a pas une mĂ©ta robots « noindex » ou « none » qui empĂȘche le site de se faire indexer. Le sitemap XML peut Ă©galement ĂȘtre intĂ©ressant Ă  implĂ©menter si on veut faire indexer ses pages web plus rapidement.

Bon courage Ă  tous !

VĂ©ronique Duong – autoveille@gmail.com

Bonjour tout le monde !

Aujourd’hui, je vous propose un article qui va vous permettre d’optimiser systĂ©matiquement votre rĂ©fĂ©rencement naturel sans y penser. En effet, mon logiciel de veille automatique m’a rapatriĂ©e une infographie intĂ©ressante qui explique comment travailler la partie sĂ©mantique de son SEO sans se « prendre la tĂȘte ».

Voici quelques astuces pour parvenir Ă  crĂ©er systĂ©matiquement une page « Google-friendly » :

  • Placer des mots-clĂ©s dans les URL
  • InsĂ©rer des mots-clĂ©s et des verbes d’action pertinents dans vos titres et vos mĂ©ta descriptions
  • RĂ©diger des titres Ă©ditoriaux parlant pour les internautes
  • Employer des mots-clĂ©s « long tail » dans le contenu textuel (parfois, en rĂ©digeant les textes, on le fait dĂ©jĂ  sans s’en rendre compte)
  • Lier les articles prĂ©cĂ©dents avec les nouveaux qui traitent de la mĂȘme thĂ©matique (pour le maillage interne)
  • Poster vos articles sur les rĂ©seaux sociaux, les autres sites spĂ©cialisĂ©s pour leurs donner de la visibilitĂ©
  • Optimiser le temps de chargement des pages en Ă©vitant de mettre trop d’images sur ces derniĂšres
  • Remplir les attributs alt des images avec des mots-clĂ©s pertinents
  • Placer un plan du site dans le footer

Optimiser SEO facilement ses pages web - AUTOVEILLE

 

Cette infographie date de 2014 et a été réalisée par Mallee Blue Media.

Elle est trĂšs simple, mais permet de se rappeler des Ă©lĂ©ments indispensables Ă  optimiser pour son rĂ©fĂ©rencement en un coup d’Ɠil  🙂

J’espĂšre que cet article aidera les personnes qui dĂ©butent en SEO.

Bon courage Ă  tous,

VĂ©ronique Duong – autoveille@gmail.com

Bonjour Ă  tous,

Dans l’article d’aujourd’hui, nous nous intĂ©ressons aux systĂšmes et aux mĂ©thodes d’indexation et de rĂ©fĂ©rencement de Google. En effectuant une veille stratĂ©gique sur les algorithmes de Google, mon logiciel de veille m’a rapatriĂ© un article trĂšs intĂ©ressant portant sur le fonctionnement des crawlers et des diffĂ©rents autres composants de Google. Cet article a Ă©tĂ© rĂ©digĂ© par les deux fondateurs de Google, Sergey Brin et Larry Page. Vous pouvez lire cet article en suivant le lien sur le site de Stanford.edu

MĂȘme si les algorithmes du moteur sont confidentiels, grĂące au schĂ©ma fourni dans l’article, on peut tout de mĂȘme mieux comprendre comment marche l’indexation chez Google. Dans le livre d’Olivier Andrieu, on peut lire que Google possĂ©derait deux index : un index principal (oĂč il faut absolument y ĂȘtre pour ĂȘtre visible) et un index secondaire (pages dupliquĂ©es, pages ayant peu de liens externes, pages « mal liĂ©es », etc.).

Voici l’architecture « high level » (comme le dĂ©crit les fondateurs) de Google :

Architecture des composants de Google - AUTOVEILLE

 

Source : Stanford (Article rédigé par Sergey Brin et Larry Page)

Voici ce que les fondateurs expliquent par rapport Ă  cette structure [Extrait de l’article] :

In Google, the web crawling (downloading of web pages) is done by several distributed crawlers. There is a URLserver that sends lists of URLs to be fetched to the crawlers. The web pages that are fetched are then sent to the storeserver. The storeserver then compresses and stores the web pages into a repository. Every web page has an associated ID number called a docID which is assigned whenever a new URL is parsed out of a web page. The indexing function is performed by the indexer and the sorter. The indexer performs a number of functions. It reads the repository, uncompresses the documents, and parses them. Each document is converted into a set of word occurrences called hits. The hits record the word, position in document, an approximation of font size, and capitalization. The indexer distributes these hits into a set of « barrels », creating a partially sorted forward index. The indexer performs another important function. It parses out all the links in every web page and stores important information about them in an anchors file. This file contains enough information to determine where each link points from and to, and the text of the link.

The URLresolver reads the anchors file and converts relative URLs into absolute URLs and in turn into docIDs. It puts the anchor text into the forward index, associated with the docID that the anchor points to. It also generates a database of links which are pairs of docIDs. The links database is used to compute PageRanks for all the documents. […]

Pour rĂ©sumer en français, le crawling est effectuĂ© par diffĂ©rents robots. Il y a un « URLserver » qui envoie une liste d’URLs Ă  extraire aux crawlers. Ces URLs seront ensuite envoyĂ©es dans le « storeserver ». Puis le storeserver compresses et stockes les pages web (URLs) dans un « entrepĂŽt ». Chaque page a un ID nommĂ© docID qui lui est assignĂ©e.

L’index fonctionne grĂące Ă  deux composants : l' »indexer » et le « sorter » (outils d’indexation et de tri). L’indexer possĂšde plusieurs fonctions. Il lit les Ă©lĂ©ments dans l’entrepĂŽt, dĂ©compresse les documents et les dĂ©crypte. Chaque document est dĂ©coupĂ© en mots nommĂ©s « hits ». L’indexer met ces « hits » dans des silos (« barrels »), ce qui crĂ©e des index partiellement triĂ©s. L’indexer analyse tous les liens d’une page et stocke les ancres dans un fichier nommĂ© « anchors ». Ce fichier contient des informations qui indiquent d’oĂč provient un lien et le texte sur ce lien (l’ancre).

L’URLresolver lit les fichiers d’ancres et convertit les liens relatifs en liens absolus qui sont ensuite transformĂ©s en docIDs. Cela met l’ancre de texte dans l’index transfĂ©rĂ©, associĂ© au docID dont l’ancre y pointe. Cela gĂ©nĂšre Ă©galement une base de donnĂ©es de liens qui est utilisĂ©e pour calculer le PageRank de chaque page … 🙂

GrĂące Ă  cet article, on comprend bien mieux comment Google fonctionne. Il n’y a pas qu’un outil, qu’un seul algorithme, mais plusieurs qui tournent en mĂȘme temps. Panda, Penguin, etc. ne seraient rien d’autres que des composants qui font partie de la chaĂźne de traitements maintenant.  Je n’ai traduit que l’essentiel de l’article car c’est la partie la plus intĂ©ressante pour comprendre le SEO Ă  mon avis. En voyant le schĂ©ma, c’est typiquement une chaĂźne de traitements d’ingĂ©nierie linguistique informatique trĂšs poussĂ©e. Peu Ă  peu, je vais me remettre dans les recherches scientifiques car j’aime beaucoup Ă©tudier les problĂ©matiques liĂ©es Ă  ce domaine.

Si vous avez des questions sur le traitement automatique des donnĂ©es ou le rĂ©fĂ©rencement naturel, n’hĂ©sitez pas Ă  me contacter avec cette adresse autoveille@gmail.com

Bon courage Ă  tous !

VĂ©ronique Duong –

%d blogueurs aiment cette page :