archive

Traitement automatique des langues

Bonjour tout le monde !

En effectuant ma veille informationnelle avec mon logiciel de veille automatique, je suis tombĂ©e sur une petite infographie de SEOChat portant sur l’importance du Link Building pour bien se classer sur Google. RĂ©cemment, dans un de mes autres articles, je prĂ©sentais les facteurs de positionnement principaux en SEO, et parmi ces derniers, le volume de backlinks a une place primordiale dans le classement.

Sur l’illustration, on peut lire que le robot des moteurs de recherche procĂšde Ă  l’identification des pages trĂšs pertinentes (thĂ©matiques similaires, pages populaires reliĂ©es entre elles, etc.) afin de positionner ces derniĂšres dans les SERP.

Voici l’infographie (trĂšs simple) en question, trouvĂ©e sur le site de SEOChat :

L'importance du Link Building en SEO - AUTOVEILLE

 

Rappelez-vous qu’un bon lien doit se faire de la façon suivante :

  • Dans une balise <a href=« LIEN »>ANCRE</a>
  • Avec une ancre « propre » (c’est-Ă -dire pas de mots-clĂ©s populaires)
  • InsĂ©rĂ© dans des pages populaires avec un PageRank supĂ©rieur Ă  3 ou 4 (mĂȘme si cet indice tend de plus en plus Ă  ĂȘtre assez obsolĂšte, vu qu’il ne sera plus mis Ă  jour selon Google).

J’espĂšre que cette piqĂ»re de rappel vous permettra de (re)mettre en place une stratĂ©gie de netlinking.

Bon courage Ă  tous,

VĂ©ronique Duong – autoveille@gmail.com

Bonjour Ă  tous,

Dans l’article d’aujourd’hui, nous nous intĂ©ressons aux systĂšmes et aux mĂ©thodes d’indexation et de rĂ©fĂ©rencement de Google. En effectuant une veille stratĂ©gique sur les algorithmes de Google, mon logiciel de veille m’a rapatriĂ© un article trĂšs intĂ©ressant portant sur le fonctionnement des crawlers et des diffĂ©rents autres composants de Google. Cet article a Ă©tĂ© rĂ©digĂ© par les deux fondateurs de Google, Sergey Brin et Larry Page. Vous pouvez lire cet article en suivant le lien sur le site de Stanford.edu

MĂȘme si les algorithmes du moteur sont confidentiels, grĂące au schĂ©ma fourni dans l’article, on peut tout de mĂȘme mieux comprendre comment marche l’indexation chez Google. Dans le livre d’Olivier Andrieu, on peut lire que Google possĂ©derait deux index : un index principal (oĂč il faut absolument y ĂȘtre pour ĂȘtre visible) et un index secondaire (pages dupliquĂ©es, pages ayant peu de liens externes, pages « mal liĂ©es », etc.).

Voici l’architecture « high level » (comme le dĂ©crit les fondateurs) de Google :

Architecture des composants de Google - AUTOVEILLE

 

Source : Stanford (Article rédigé par Sergey Brin et Larry Page)

Voici ce que les fondateurs expliquent par rapport Ă  cette structure [Extrait de l’article] :

In Google, the web crawling (downloading of web pages) is done by several distributed crawlers. There is a URLserver that sends lists of URLs to be fetched to the crawlers. The web pages that are fetched are then sent to the storeserver. The storeserver then compresses and stores the web pages into a repository. Every web page has an associated ID number called a docID which is assigned whenever a new URL is parsed out of a web page. The indexing function is performed by the indexer and the sorter. The indexer performs a number of functions. It reads the repository, uncompresses the documents, and parses them. Each document is converted into a set of word occurrences called hits. The hits record the word, position in document, an approximation of font size, and capitalization. The indexer distributes these hits into a set of « barrels », creating a partially sorted forward index. The indexer performs another important function. It parses out all the links in every web page and stores important information about them in an anchors file. This file contains enough information to determine where each link points from and to, and the text of the link.

The URLresolver reads the anchors file and converts relative URLs into absolute URLs and in turn into docIDs. It puts the anchor text into the forward index, associated with the docID that the anchor points to. It also generates a database of links which are pairs of docIDs. The links database is used to compute PageRanks for all the documents. […]

Pour rĂ©sumer en français, le crawling est effectuĂ© par diffĂ©rents robots. Il y a un « URLserver » qui envoie une liste d’URLs Ă  extraire aux crawlers. Ces URLs seront ensuite envoyĂ©es dans le « storeserver ». Puis le storeserver compresses et stockes les pages web (URLs) dans un « entrepĂŽt ». Chaque page a un ID nommĂ© docID qui lui est assignĂ©e.

L’index fonctionne grĂące Ă  deux composants : l' »indexer » et le « sorter » (outils d’indexation et de tri). L’indexer possĂšde plusieurs fonctions. Il lit les Ă©lĂ©ments dans l’entrepĂŽt, dĂ©compresse les documents et les dĂ©crypte. Chaque document est dĂ©coupĂ© en mots nommĂ©s « hits ». L’indexer met ces « hits » dans des silos (« barrels »), ce qui crĂ©e des index partiellement triĂ©s. L’indexer analyse tous les liens d’une page et stocke les ancres dans un fichier nommĂ© « anchors ». Ce fichier contient des informations qui indiquent d’oĂč provient un lien et le texte sur ce lien (l’ancre).

L’URLresolver lit les fichiers d’ancres et convertit les liens relatifs en liens absolus qui sont ensuite transformĂ©s en docIDs. Cela met l’ancre de texte dans l’index transfĂ©rĂ©, associĂ© au docID dont l’ancre y pointe. Cela gĂ©nĂšre Ă©galement une base de donnĂ©es de liens qui est utilisĂ©e pour calculer le PageRank de chaque page … 🙂

GrĂące Ă  cet article, on comprend bien mieux comment Google fonctionne. Il n’y a pas qu’un outil, qu’un seul algorithme, mais plusieurs qui tournent en mĂȘme temps. Panda, Penguin, etc. ne seraient rien d’autres que des composants qui font partie de la chaĂźne de traitements maintenant.  Je n’ai traduit que l’essentiel de l’article car c’est la partie la plus intĂ©ressante pour comprendre le SEO Ă  mon avis. En voyant le schĂ©ma, c’est typiquement une chaĂźne de traitements d’ingĂ©nierie linguistique informatique trĂšs poussĂ©e. Peu Ă  peu, je vais me remettre dans les recherches scientifiques car j’aime beaucoup Ă©tudier les problĂ©matiques liĂ©es Ă  ce domaine.

Si vous avez des questions sur le traitement automatique des donnĂ©es ou le rĂ©fĂ©rencement naturel, n’hĂ©sitez pas Ă  me contacter avec cette adresse autoveille@gmail.com

Bon courage Ă  tous !

VĂ©ronique Duong –

Bonjour tout le monde !

Je profite de mon jour de congĂ© pour faire une veille stratĂ©gique complĂšte des diffĂ©rents sites SEO avec mon logiciel de veille, et j’ai trouvĂ© une information trĂšs intĂ©ressante : Google affichera prochainement si un site est « Mobile-friendly » dans ses SERP.

En effet, une petite icĂŽne indiquera aux utilisateurs si un site est adaptĂ© aux appareils mobiles. Je vous joins les captures de l’article de Search Engine Land. Voici les SERP (sur mobile) que les sites non mobile-friendly auront > Une petite icĂŽne grise d’un smartphone barrĂ© :

Sites non mobile-friendly - AUTOVEILLEEt pour les sites mobile-friendly, on a une petite icĂŽne verte d’un smartphone :

Site mobile-friendly - AUTOVEILLEAvec cette information, on peut comprendre que l’adaptation des sites en Responsive Design (Google prĂ©fĂšre cette technique) ou la crĂ©ation d’un site mobile devient indispensable pour 2015 et les annĂ©es Ă  venir. Faites appel Ă  un dĂ©veloppeur pour vous aider dans la mise en place d’un site mobile-friendly.

J’ai Ă©galement trouvĂ© une infographie (de WolfGang Jaegel) bien sympathique qui dĂ©montre qu’Ă  partir de 2015, l’utilisation des appareils mobiles va surpasser celle des ordinateurs. Un utilisateur moyen regarde environ 200 fois son smartphone au quotidien. La majoritĂ© (85 – 90%) des individus considĂšrent que les smartphones, les tablettes ou autres appareils mobiles connectables font partie de leurs vies quotidiennes dĂ©sormais.

Usage des mobiles en 2015 - AUTOVEILLE

Le mobile marketing va ĂȘtre LA tendance de l’annĂ©e 2015. Il faut s’y prendre maintenant si vous souhaitez ĂȘtre considĂ©rĂ© comme « friendly » aux yeux de Google, mais surtout aux yeux des visiteurs de votre site. De mon cĂŽtĂ©, je vais aussi me faire aider pour rendre correctement mon site AUTOVEILLE « responsive ». En tout cas, si vous avez besoin de conseils en SEO marketing, mobile marketing, etc. n’hĂ©sitez pas Ă  m’envoyer un mail : autoveille@gmail.com

Bon courage à tous 🙂

VĂ©ronique Duong –

Bonjour tout le monde !

En effectuant ma veille stratĂ©gique de ce week-end, je suis tombĂ©e sur un article trĂšs intĂ©ressant de MOZ sur le TF-IDF qui illustre bien que le SEO, ce n’est pas QUE des mots-clĂ©s comme beaucoup le croient. Le rĂ©fĂ©rencement naturel est un domaine liĂ© Ă  l’ingĂ©nierie linguistique avec des algorithmes techniques et linguistiques avancĂ©s et poussĂ©s.

Traditionnellement, on optimise le SEO en se concentrant essentiellement sur les mĂ©ta tags (titres et descriptions), les URLs, les titres de heading (<h1>, <h2>, etc.), les textes, les attributs des images. On a mĂȘme tendance Ă  « sur-optimiser » ces Ă©lĂ©ments en y insĂ©rant souvent les mĂȘmes mots-clĂ©s … Il faut donc essayer de varier son champs lexical, d’autant plus qu’en variant les termes, on maximise les chances d’apparaĂźtre sur d’autres mots-clĂ©s (la longue traĂźne … :))

Voici une image de MOZ oĂč on voit qu’une page est carrĂ©ment « keyword stuffĂ©e » (mĂȘme mot-clĂ© partout > titre, URL, texte, attribut alt, etc.) :

SEO traditionnel avec des mots-clés - AUTOVEILLE

J’ai (enfin !) une bonne infographie du TF-IDF. J’ai tentĂ© d’expliquer le TF-IDF sur ce blog, et voici une explication plutĂŽt claire de cette mesure statistique :

TF-IDF, mesure de fréquences de termes SEO - AUTOVEILLE

 

Les mots outils comme les articles, les dĂ©terminants, etc. ont peu de poids, et sont « ignorĂ©s » par les moteurs de recherche. Les mots-clĂ©s gĂ©nĂ©riques dans une page sont Ă©galement trĂšs vagues pour ĂȘtre considĂ©rĂ©s comme importants en termes de TF-IDF. En revanche, les mots-clĂ©s plus spĂ©cifiques et prĂ©cis vont avoir un TF-IDF intĂ©ressant : donc, encore une fois, pensez aux mots-clĂ©s ciblĂ©s car un algorithme technique et une mesure statistique calculent et pondĂšrent les mots des pages web.

En SEO, on peut en apprendre plus tous les jours. Si certains SEO ne pensent qu’aux mots-clĂ©s et estiment que cela suffit, ils n’ont pas tout Ă  fait raison. En tout cas, j’espĂšre que cet article aidera les entreprises Ă  mieux voir que le rĂ©fĂ©rencement naturel, c’est vraiment plus technique que ce que l’on pense.

Bon courage Ă  tous !

VĂ©ronique Duong –

Bonjour tout le monde !

Ce matin en faisant une veille technologique rapidement sur les positionnements de mon site AUTOVEILLE et mes rĂ©sultats de recherche dans Google, je dĂ©couvre que le moteur a bien pris en compte les micro data que j’ai codĂ©s dans mes pages web le week-end dernier 🙂 Maintenant, j’ai un fil d’Ariane dans le snippet ! Mais cela fera l’objet d’un autre article quand Google aura fini son crawl. Aujourd’hui je vais vous parler d’une technique SEO plus complexe qui fait un peu peur Ă  tout le monde : l’URL rewriting avec le .htaccess !

La technique que je vais vous montrer est une technique oĂč j’ai réécrit les URLs en dur car le site que j’ai traitĂ© est tout petit (moins de 10 pages web). Pour les rĂšgles, on peut effectivement utiliser les expressions rĂ©guliĂšres (ex : [a-zA-Z]*\d? … pas trĂšs parlant non ?) pour réécrire les URLs mais comme je dois l’expliquer Ă  un client qui ne connait pas le SEO et encore moins les langages informatiques, donc je me suis dit, autant faire quelque chose de propre et de clair pour le client.

Voici un extrait du .htaccess oĂč on voit les URLs en dur (cliquez sur l’image pour l’agrandir) :

Réécriture d'URL avec htaccess - AUTOVEILLE SEO

Je vais tenter de vous expliquer dans un langage vulgarisé comment Ă©crire et faire fonctionner une rĂšgle de réécriture. Une image avec une petite lĂ©gende serait plus parlante (cliquer dessus pour l’agrandir) :

Réécriture d'URL avec htaccess et URL en dur - AUTOVEILLE

 

Le fichier .htaccess doit ĂȘtre enregistrĂ© dans un fichier texte avec le nom « .htaccess » sans rien d’autre. Il doit ĂȘtre placĂ© Ă  la racine du site, directement dans le serveur (comme le robots.txt). Avec les trois lignes ci-dessus,

Si vous avez des questions sur du SEO technique, n’hĂ©sitez pas Ă  me les envoyer Ă  autoveille@gmail.com, je serais ravie de vous aider sur vos problĂ©matiques !

Bon courage Ă  tous,

VĂ©ronique Duong –

Bonjour tout le monde !

GrĂące Ă  ma veille informationnelle de ce matin sur le JavaScript, mon logiciel de veille AUTOVEILLE m’a rapatriĂ© une petite infographie les astuces quant Ă  l’emploi / l’implĂ©mentation de ce langage pour bien animer un site tout en l’optimisant.

Comme vous l’aurez remarquĂ©, j’ai des phases de spĂ©cialisation dans mon parcours professionnel, tantĂŽt je suis axĂ©e sur le Responsive Design, le Parallax, le Mobile Markerting, et maintenant le JavaScript. Je m’intĂ©resse vraiment Ă  tout ce qui est liĂ© au web et au dĂ©lĂ  🙂

Je ne vais pas rĂ©pĂ©ter tout ce qu’il y a marquĂ© dans l’illustration, mais en rĂ©sumĂ©, pour le CSS et le JavaScript, il faut Ă©viter :

  • les styles qui affectent le layout pour le CSS
  • les styles qui affectent les couleurs, background, etc. pour le CSS
  • les fonctions setTimeout et setInterval pour le JavaScript
  • les changements de Styles Inline pour le JS
  • les boucles Reflow Repaint pour le JS
  • Etc.

Je suis encore en plein apprentissage pour le JavaScript, mais dans une logique SEO, il faut Ă©viter de mettre trop d’images, de CSS et de JS dans un site, surtout s’il ne s’agit que de la dĂ©coration.

Astuces utilisation CSS et JS - Animation site SEO - AUTOVEILLE

Qu’en pensez-vous ? Est-ce que cette infographie vous paraĂźt claire ?

Bon courage à tous 🙂

VĂ©ronique Duong – autoveille@gmail.com

Bonjour tout le monde !

Ce matin, je vous disais sur mon blog AUTOVEILLE MultimĂ©dia que je suis actuellement en train d’apprendre Ă  coder en JavaScript, et j’ai continuĂ© mes recherches entre temps. Le JavaScript permet d’automatiser certaines actions dans un site web et peut ĂȘtre trĂšs pratique.

Mis Ă  part utiliser Perl pour dĂ©velopper des outils d’automatisation ou moteurs de veille, je compte aussi me mettre au JS pour bien optimiser un site web dans sa totalitĂ© (quels JavaScript peuvent ĂȘtre retirĂ©s ? comment fonctionnerait le site sans un des codes JS, etc.). Je pense que c’est assez important en tant que SEO de connaĂźtre Ă  minima ce langage.

Donc, j’ai trouvĂ© le moyen d’automatiser l’affichage alĂ©atoire de phrases ou de contenu textuel sur une page web. Cependant, il ne faut pas abuser de cette pratique. Par contre, pour dynamiser un footer ou autre, je pense que cela peut ĂȘtre intĂ©ressant.

C’est exactement la mĂȘme page web, mais grĂące Ă  un code JavaScript, le contenu s’affiche alĂ©atoirement de façon dynamique (il est placĂ© dans un div avec attribut ID :

Une fois avec « Outil de veille » :

Outil SEO : JavaScript pour automatiser l'affichage de contenu - AUTOVEILLE

Et une autre fois avec « Logiciel de veille » :

 

 

outil-seo-javascript-automatiser-affichage-contenu-AUTOVEILLE

Avec en prime une petite vidéo qui montre la page en action !

Je commence Ă  rĂ©ellement apprĂ©cier le JavaScript, et plus particuliĂšrement son utilitĂ© ! Si vous voulez en savoir plus, n’hĂ©sitez pas Ă  me contacter pour avoir le script. (Je remercie au passage la personne qui a donnĂ© ce tutoriel !).

Bon courage à tous, et amusez-vous bien 🙂

VĂ©ronique Duong – autoveille@gmail.com

Bonjour tout le monde !

Pour continuer sur le sujet des futures tendances, j’ai trouvĂ©, grĂące Ă  mon logiciel de veille, une infographie trĂšs intĂ©ressante  sur l’avenir des moteurs de recherche.

RĂ©cemment, j’ai rĂ©digĂ© quelques articles sur l’avenir du search avec la mise en place de l’algorithme Hummingbird, du web sĂ©mantique (web 3.0), etc. Vous pouvez lire ces articles sur mon blog AUTOVEILLE MultimĂ©dia.

Cette nouvelle infographie indique que le Knowledge Graph va prendre encore plus d’ampleur dans ces prochaines annĂ©es, les rĂ©seaux sociaux seront indispensables pour ĂȘtre visible sur le web (c’est dĂ©jĂ  actuellement le cas !), la recherche mobile continuera Ă  croĂźtre jusqu’en 2018 (dĂ©laissant derriĂšre la recherche sur PC).

Les recherches locales seront aussi trĂšs importantes pour le futur du web, pensez donc Ă  vous crĂ©er une page Google+ Local dĂšs aujourd’hui si ce n’est pas encore fait, par exemple.

N’oublions pas Ă©galement l’expĂ©rience utilisateur qui est primordial (au final) pour la durĂ©e de vie d’un site. Si un site propose un design original, ergonomique et Ă©galement un contenu intĂ©ressant et informatif sur les produits et les services, il aura toutes les chances de marcher et d’avoir un trafic fort.

Sans plus tarder, voici l’infographie en question ! 🙂 Elle a Ă©tĂ© rĂ©alisĂ©e par Siteber :

L'avenir des moteurs de recherche SEO et SEA - AUTOVEILLE

 

Je suis trĂšs intĂ©ressĂ©e par les sujets liĂ©s au web sĂ©mantique, web 3.0, et TF-IDF en ce moment (aprĂšs en tant qu’ingĂ©nieure linguiste, c’est un peu normal me diriez-vous …), mais … vraiment au point de vouloir me remettre Ă  faire de la recherche dessus. AprĂšs l’entrepreneuriat, je me lance dans un doctorat ? 🙂 On verra !

Si vous avez besoin de conseils, de guidelines pour vos projets SEO, de veille stratĂ©gique, d’ingĂ©nierie linguistique, n’hĂ©sitez pas Ă  m’Ă©crire Ă  autoveille@gmail.com

Bon courage Ă  tous !

VĂ©ronique Duong –

Bonjour tout le monde !

Aujourd’hui, je vous propose un article sur l’estimation de l’Ă©volution des interactions clients cross-canal avec le numĂ©rique en 2015. Lors de ma veille informationnelle de ce matin, j’a trouvĂ© une infographie reprĂ©sentant une Ă©tude menĂ©e par MARKESS International auprĂšs de 140 entreprises et 30 prestataires français en avril 2013.

La part des canaux digitaux dans l’ensemble des interactions des clients reprĂ©sentait 40% en 2013, et augmenterait de 11% en 2015, soit un total de 51%. D’aprĂšs l’Ă©tude, les solutions digitales privilĂ©giĂ©es pour les interactions clients en 2015 sont :

  • les sites web optimisĂ©s pour mobile (responsive design !)
  • les chat intĂ©grĂ©s aux sites web
  • les sites d’avis
  • les Click to call
  • les rĂ©seaux sociaux intĂ©grĂ©s aux sites web
  • les vidĂ©os (publicitĂ©s, dĂ©monstrations, web TV, etc.)
  • les confĂ©rences en ligne

Le niveau d’automatisation des processus de gestion des interactions cross-canal restera faible. Pourtant l’automatisation permet d’avoir Ă  la fois un gain de temps et un gain d’argent.

A partir de 2015, les sociétés souhaitent avant tout :

  • Ă©valuer au mieux l’expĂ©rience client
  • analyser le parcours d’un client d’un canal Ă  un autre
  • gĂ©rer des campagnes cross-canaux
  • Ă©valuer la performance des diffĂ©rents canaux
  • gĂ©rer les interactions clients
  • personnaliser le contenu du site web
  • cibler les comportements
  • mesurer la pertinence des diffĂ©rents canaux

Voici l’infographie menĂ©e par MARKESS International :

Interactions cross-canaux - AUTOVEILLE

 

En 2015, il faut vraiment penser au mobile marketing. Les gens navigueront, pour la plupart, avec leurs smartphones, tablettes, etc.

Qu’en pensez-vous ?

Bon courage à tous 🙂

VĂ©ronique Duong – autoveille@gmail.com

Bonjour tout le monde !

C’est la rentrĂ©e ! Pour bien commencer, je vous propose un article sur un outil de veille que je viens de tester rĂ©cemment : ADDITCTOMATIC. Quand je teste des outils de veille, je n’ai jamais un regard de concurrent (car je ne vends pas mes outils d’automatisation) par rapport Ă  ces derniers, mais plutĂŽt, je cherche Ă  comprendre comment fonctionnent leurs technologies et Ă  essayer de voir comment je pourrais amĂ©liorer mon propre logiciel de veille, AUTOVEILLE Monitoring.

Logo Addictomatic - AUTOVEILLE

 

Robot d’Addictomatic

Donc, pour en revenir Ă  ADDITCTOMATIC, c’est une plateforme de veille qui ressemble beaucoup Ă  Netvibes en termes de fonctionnalitĂ©s. On a plusieurs petits tableaux collectant diffĂ©rentes sources qui s’affichent Ă  l’Ă©cran.

Pour utiliser l’outil de veille en ligne, cela est trĂšs simple :

1) Connectez-vous à http://addictomatic.com/

2) Entrez un nom de produit, une marque, un mot-clé dans la barre de recherche :

Outil de veille Addictomatic - AUTOVEILLE

 

3) Par exemple, pour « Iphone 5 », Addictomatic a collectĂ© plusieurs informations issues de diffĂ©rents types de sources (Bing News, YouTube, WordPress, Flickr, etc.)

Outil de veille Addictomatic - Iphone 5 - AUTOVEILLE

 

4) Pour trier les informations, il est possible de supprimer certains tableaux qui ne vous paraissent pas utiles (par exemple, lĂ  j’ai supprimĂ© les tableaux de YouTube, Flickr, Twitter Search, Google Blog Search) :

Outil de veille Addictomatic - AUTOVEILLE5) Il est Ă©galement possible de choisir diffĂ©rents types de sources grĂące Ă  l’onglet « Available sources » :

Logiciel de veille - Addictomatic - AUTOVEILLEMon avis gĂ©nĂ©ral sur l’outil : je le trouve trĂšs simple. Netvibes est un outil de collecte de donnĂ©es du mĂȘme type mais beaucoup plus avancĂ© en termes de fonctionnalitĂ©s. Testez-le pour vous faire votre propre idĂ©e, mais je pense qu’on peut trouver mieux sur le marchĂ©.

Bon courage Ă  tous !

VĂ©ronique Duong – autoveille@gmail.com