archive

Traitement automatique des langues

Bonjour tout le monde !

En effectuant ma veille informationnelle avec mon logiciel de veille automatique, je suis tombée sur une petite infographie de SEOChat portant sur l’importance du Link Building pour bien se classer sur Google. Récemment, dans un de mes autres articles, je présentais les facteurs de positionnement principaux en SEO, et parmi ces derniers, le volume de backlinks a une place primordiale dans le classement.

Sur l’illustration, on peut lire que le robot des moteurs de recherche procède à l’identification des pages très pertinentes (thématiques similaires, pages populaires reliées entre elles, etc.) afin de positionner ces dernières dans les SERP.

Voici l’infographie (très simple) en question, trouvée sur le site de SEOChat :

L'importance du Link Building en SEO - AUTOVEILLE

 

Rappelez-vous qu’un bon lien doit se faire de la façon suivante :

  • Dans une balise <a href=« LIEN »>ANCRE</a>
  • Avec une ancre « propre » (c’est-à-dire pas de mots-clés populaires)
  • Inséré dans des pages populaires avec un PageRank supérieur à 3 ou 4 (même si cet indice tend de plus en plus à être assez obsolète, vu qu’il ne sera plus mis à jour selon Google).

J’espère que cette piqûre de rappel vous permettra de (re)mettre en place une stratégie de netlinking.

Bon courage à tous,

Véronique Duong – autoveille@gmail.com

Bonjour à tous,

Dans l’article d’aujourd’hui, nous nous intéressons aux systèmes et aux méthodes d’indexation et de référencement de Google. En effectuant une veille stratégique sur les algorithmes de Google, mon logiciel de veille m’a rapatrié un article très intéressant portant sur le fonctionnement des crawlers et des différents autres composants de Google. Cet article a été rédigé par les deux fondateurs de Google, Sergey Brin et Larry Page. Vous pouvez lire cet article en suivant le lien sur le site de Stanford.edu

Même si les algorithmes du moteur sont confidentiels, grâce au schéma fourni dans l’article, on peut tout de même mieux comprendre comment marche l’indexation chez Google. Dans le livre d’Olivier Andrieu, on peut lire que Google posséderait deux index : un index principal (où il faut absolument y être pour être visible) et un index secondaire (pages dupliquées, pages ayant peu de liens externes, pages « mal liées », etc.).

Voici l’architecture « high level » (comme le décrit les fondateurs) de Google :

Architecture des composants de Google - AUTOVEILLE

 

Source : Stanford (Article rédigé par Sergey Brin et Larry Page)

Voici ce que les fondateurs expliquent par rapport à cette structure [Extrait de l’article] :

In Google, the web crawling (downloading of web pages) is done by several distributed crawlers. There is a URLserver that sends lists of URLs to be fetched to the crawlers. The web pages that are fetched are then sent to the storeserver. The storeserver then compresses and stores the web pages into a repository. Every web page has an associated ID number called a docID which is assigned whenever a new URL is parsed out of a web page. The indexing function is performed by the indexer and the sorter. The indexer performs a number of functions. It reads the repository, uncompresses the documents, and parses them. Each document is converted into a set of word occurrences called hits. The hits record the word, position in document, an approximation of font size, and capitalization. The indexer distributes these hits into a set of « barrels », creating a partially sorted forward index. The indexer performs another important function. It parses out all the links in every web page and stores important information about them in an anchors file. This file contains enough information to determine where each link points from and to, and the text of the link.

The URLresolver reads the anchors file and converts relative URLs into absolute URLs and in turn into docIDs. It puts the anchor text into the forward index, associated with the docID that the anchor points to. It also generates a database of links which are pairs of docIDs. The links database is used to compute PageRanks for all the documents. […]

Pour résumer en français, le crawling est effectué par différents robots. Il y a un « URLserver » qui envoie une liste d’URLs à extraire aux crawlers. Ces URLs seront ensuite envoyées dans le « storeserver ». Puis le storeserver compresses et stockes les pages web (URLs) dans un « entrepôt ». Chaque page a un ID nommé docID qui lui est assignée.

L’index fonctionne grâce à deux composants : l' »indexer » et le « sorter » (outils d’indexation et de tri). L’indexer possède plusieurs fonctions. Il lit les éléments dans l’entrepôt, décompresse les documents et les décrypte. Chaque document est découpé en mots nommés « hits ». L’indexer met ces « hits » dans des silos (« barrels »), ce qui crée des index partiellement triés. L’indexer analyse tous les liens d’une page et stocke les ancres dans un fichier nommé « anchors ». Ce fichier contient des informations qui indiquent d’où provient un lien et le texte sur ce lien (l’ancre).

L’URLresolver lit les fichiers d’ancres et convertit les liens relatifs en liens absolus qui sont ensuite transformés en docIDs. Cela met l’ancre de texte dans l’index transféré, associé au docID dont l’ancre y pointe. Cela génère également une base de données de liens qui est utilisée pour calculer le PageRank de chaque page … 🙂

Grâce à cet article, on comprend bien mieux comment Google fonctionne. Il n’y a pas qu’un outil, qu’un seul algorithme, mais plusieurs qui tournent en même temps. Panda, Penguin, etc. ne seraient rien d’autres que des composants qui font partie de la chaîne de traitements maintenant.  Je n’ai traduit que l’essentiel de l’article car c’est la partie la plus intéressante pour comprendre le SEO à mon avis. En voyant le schéma, c’est typiquement une chaîne de traitements d’ingénierie linguistique informatique très poussée. Peu à peu, je vais me remettre dans les recherches scientifiques car j’aime beaucoup étudier les problématiques liées à ce domaine.

Si vous avez des questions sur le traitement automatique des données ou le référencement naturel, n’hésitez pas à me contacter avec cette adresse autoveille@gmail.com

Bon courage à tous !

Véronique Duong –

Bonjour tout le monde !

Je profite de mon jour de congé pour faire une veille stratégique complète des différents sites SEO avec mon logiciel de veille, et j’ai trouvé une information très intéressante : Google affichera prochainement si un site est « Mobile-friendly » dans ses SERP.

En effet, une petite icône indiquera aux utilisateurs si un site est adapté aux appareils mobiles. Je vous joins les captures de l’article de Search Engine Land. Voici les SERP (sur mobile) que les sites non mobile-friendly auront > Une petite icône grise d’un smartphone barré :

Sites non mobile-friendly - AUTOVEILLEEt pour les sites mobile-friendly, on a une petite icône verte d’un smartphone :

Site mobile-friendly - AUTOVEILLEAvec cette information, on peut comprendre que l’adaptation des sites en Responsive Design (Google préfère cette technique) ou la création d’un site mobile devient indispensable pour 2015 et les années à venir. Faites appel à un développeur pour vous aider dans la mise en place d’un site mobile-friendly.

J’ai également trouvé une infographie (de WolfGang Jaegel) bien sympathique qui démontre qu’à partir de 2015, l’utilisation des appareils mobiles va surpasser celle des ordinateurs. Un utilisateur moyen regarde environ 200 fois son smartphone au quotidien. La majorité (85 – 90%) des individus considèrent que les smartphones, les tablettes ou autres appareils mobiles connectables font partie de leurs vies quotidiennes désormais.

Usage des mobiles en 2015 - AUTOVEILLE

Le mobile marketing va être LA tendance de l’année 2015. Il faut s’y prendre maintenant si vous souhaitez être considéré comme « friendly » aux yeux de Google, mais surtout aux yeux des visiteurs de votre site. De mon côté, je vais aussi me faire aider pour rendre correctement mon site AUTOVEILLE « responsive ». En tout cas, si vous avez besoin de conseils en SEO marketing, mobile marketing, etc. n’hésitez pas à m’envoyer un mail : autoveille@gmail.com

Bon courage à tous 🙂

Véronique Duong –

Bonjour tout le monde !

En effectuant ma veille stratégique de ce week-end, je suis tombée sur un article très intéressant de MOZ sur le TF-IDF qui illustre bien que le SEO, ce n’est pas QUE des mots-clés comme beaucoup le croient. Le référencement naturel est un domaine lié à l’ingénierie linguistique avec des algorithmes techniques et linguistiques avancés et poussés.

Traditionnellement, on optimise le SEO en se concentrant essentiellement sur les méta tags (titres et descriptions), les URLs, les titres de heading (<h1>, <h2>, etc.), les textes, les attributs des images. On a même tendance à « sur-optimiser » ces éléments en y insérant souvent les mêmes mots-clés … Il faut donc essayer de varier son champs lexical, d’autant plus qu’en variant les termes, on maximise les chances d’apparaître sur d’autres mots-clés (la longue traîne … :))

Voici une image de MOZ où on voit qu’une page est carrément « keyword stuffée » (même mot-clé partout > titre, URL, texte, attribut alt, etc.) :

SEO traditionnel avec des mots-clés - AUTOVEILLE

J’ai (enfin !) une bonne infographie du TF-IDF. J’ai tenté d’expliquer le TF-IDF sur ce blog, et voici une explication plutôt claire de cette mesure statistique :

TF-IDF, mesure de fréquences de termes SEO - AUTOVEILLE

 

Les mots outils comme les articles, les déterminants, etc. ont peu de poids, et sont « ignorés » par les moteurs de recherche. Les mots-clés génériques dans une page sont également très vagues pour être considérés comme importants en termes de TF-IDF. En revanche, les mots-clés plus spécifiques et précis vont avoir un TF-IDF intéressant : donc, encore une fois, pensez aux mots-clés ciblés car un algorithme technique et une mesure statistique calculent et pondèrent les mots des pages web.

En SEO, on peut en apprendre plus tous les jours. Si certains SEO ne pensent qu’aux mots-clés et estiment que cela suffit, ils n’ont pas tout à fait raison. En tout cas, j’espère que cet article aidera les entreprises à mieux voir que le référencement naturel, c’est vraiment plus technique que ce que l’on pense.

Bon courage à tous !

Véronique Duong –

Bonjour tout le monde !

Ce matin en faisant une veille technologique rapidement sur les positionnements de mon site AUTOVEILLE et mes résultats de recherche dans Google, je découvre que le moteur a bien pris en compte les micro data que j’ai codés dans mes pages web le week-end dernier 🙂 Maintenant, j’ai un fil d’Ariane dans le snippet ! Mais cela fera l’objet d’un autre article quand Google aura fini son crawl. Aujourd’hui je vais vous parler d’une technique SEO plus complexe qui fait un peu peur à tout le monde : l’URL rewriting avec le .htaccess !

La technique que je vais vous montrer est une technique où j’ai réécrit les URLs en dur car le site que j’ai traité est tout petit (moins de 10 pages web). Pour les règles, on peut effectivement utiliser les expressions régulières (ex : [a-zA-Z]*\d? … pas très parlant non ?) pour réécrire les URLs mais comme je dois l’expliquer à un client qui ne connait pas le SEO et encore moins les langages informatiques, donc je me suis dit, autant faire quelque chose de propre et de clair pour le client.

Voici un extrait du .htaccess où on voit les URLs en dur (cliquez sur l’image pour l’agrandir) :

Réécriture d'URL avec htaccess - AUTOVEILLE SEO

Je vais tenter de vous expliquer dans un langage vulgarisé comment écrire et faire fonctionner une règle de réécriture. Une image avec une petite légende serait plus parlante (cliquer dessus pour l’agrandir) :

Réécriture d'URL avec htaccess et URL en dur - AUTOVEILLE

 

Le fichier .htaccess doit être enregistré dans un fichier texte avec le nom « .htaccess » sans rien d’autre. Il doit être placé à la racine du site, directement dans le serveur (comme le robots.txt). Avec les trois lignes ci-dessus,

Si vous avez des questions sur du SEO technique, n’hésitez pas à me les envoyer à autoveille@gmail.com, je serais ravie de vous aider sur vos problématiques !

Bon courage à tous,

Véronique Duong –

Bonjour tout le monde !

Grâce à ma veille informationnelle de ce matin sur le JavaScript, mon logiciel de veille AUTOVEILLE m’a rapatrié une petite infographie les astuces quant à l’emploi / l’implémentation de ce langage pour bien animer un site tout en l’optimisant.

Comme vous l’aurez remarqué, j’ai des phases de spécialisation dans mon parcours professionnel, tantôt je suis axée sur le Responsive Design, le Parallax, le Mobile Markerting, et maintenant le JavaScript. Je m’intéresse vraiment à tout ce qui est lié au web et au délà 🙂

Je ne vais pas répéter tout ce qu’il y a marqué dans l’illustration, mais en résumé, pour le CSS et le JavaScript, il faut éviter :

  • les styles qui affectent le layout pour le CSS
  • les styles qui affectent les couleurs, background, etc. pour le CSS
  • les fonctions setTimeout et setInterval pour le JavaScript
  • les changements de Styles Inline pour le JS
  • les boucles Reflow Repaint pour le JS
  • Etc.

Je suis encore en plein apprentissage pour le JavaScript, mais dans une logique SEO, il faut éviter de mettre trop d’images, de CSS et de JS dans un site, surtout s’il ne s’agit que de la décoration.

Astuces utilisation CSS et JS - Animation site SEO - AUTOVEILLE

Qu’en pensez-vous ? Est-ce que cette infographie vous paraît claire ?

Bon courage à tous 🙂

Véronique Duong – autoveille@gmail.com

Bonjour tout le monde !

Ce matin, je vous disais sur mon blog AUTOVEILLE Multimédia que je suis actuellement en train d’apprendre à coder en JavaScript, et j’ai continué mes recherches entre temps. Le JavaScript permet d’automatiser certaines actions dans un site web et peut être très pratique.

Mis à part utiliser Perl pour développer des outils d’automatisation ou moteurs de veille, je compte aussi me mettre au JS pour bien optimiser un site web dans sa totalité (quels JavaScript peuvent être retirés ? comment fonctionnerait le site sans un des codes JS, etc.). Je pense que c’est assez important en tant que SEO de connaître à minima ce langage.

Donc, j’ai trouvé le moyen d’automatiser l’affichage aléatoire de phrases ou de contenu textuel sur une page web. Cependant, il ne faut pas abuser de cette pratique. Par contre, pour dynamiser un footer ou autre, je pense que cela peut être intéressant.

C’est exactement la même page web, mais grâce à un code JavaScript, le contenu s’affiche aléatoirement de façon dynamique (il est placé dans un div avec attribut ID :

Une fois avec « Outil de veille » :

Outil SEO : JavaScript pour automatiser l'affichage de contenu - AUTOVEILLE

Et une autre fois avec « Logiciel de veille » :

 

 

outil-seo-javascript-automatiser-affichage-contenu-AUTOVEILLE

Avec en prime une petite vidéo qui montre la page en action !

Je commence à réellement apprécier le JavaScript, et plus particulièrement son utilité ! Si vous voulez en savoir plus, n’hésitez pas à me contacter pour avoir le script. (Je remercie au passage la personne qui a donné ce tutoriel !).

Bon courage à tous, et amusez-vous bien 🙂

Véronique Duong – autoveille@gmail.com

Bonjour tout le monde !

Pour continuer sur le sujet des futures tendances, j’ai trouvé, grâce à mon logiciel de veille, une infographie très intéressante  sur l’avenir des moteurs de recherche.

Récemment, j’ai rédigé quelques articles sur l’avenir du search avec la mise en place de l’algorithme Hummingbird, du web sémantique (web 3.0), etc. Vous pouvez lire ces articles sur mon blog AUTOVEILLE Multimédia.

Cette nouvelle infographie indique que le Knowledge Graph va prendre encore plus d’ampleur dans ces prochaines années, les réseaux sociaux seront indispensables pour être visible sur le web (c’est déjà actuellement le cas !), la recherche mobile continuera à croître jusqu’en 2018 (délaissant derrière la recherche sur PC).

Les recherches locales seront aussi très importantes pour le futur du web, pensez donc à vous créer une page Google+ Local dès aujourd’hui si ce n’est pas encore fait, par exemple.

N’oublions pas également l’expérience utilisateur qui est primordial (au final) pour la durée de vie d’un site. Si un site propose un design original, ergonomique et également un contenu intéressant et informatif sur les produits et les services, il aura toutes les chances de marcher et d’avoir un trafic fort.

Sans plus tarder, voici l’infographie en question ! 🙂 Elle a été réalisée par Siteber :

L'avenir des moteurs de recherche SEO et SEA - AUTOVEILLE

 

Je suis très intéressée par les sujets liés au web sémantique, web 3.0, et TF-IDF en ce moment (après en tant qu’ingénieure linguiste, c’est un peu normal me diriez-vous …), mais … vraiment au point de vouloir me remettre à faire de la recherche dessus. Après l’entrepreneuriat, je me lance dans un doctorat ? 🙂 On verra !

Si vous avez besoin de conseils, de guidelines pour vos projets SEO, de veille stratégique, d’ingénierie linguistique, n’hésitez pas à m’écrire à autoveille@gmail.com

Bon courage à tous !

Véronique Duong –

Bonjour tout le monde !

Aujourd’hui, je vous propose un article sur l’estimation de l’évolution des interactions clients cross-canal avec le numérique en 2015. Lors de ma veille informationnelle de ce matin, j’a trouvé une infographie représentant une étude menée par MARKESS International auprès de 140 entreprises et 30 prestataires français en avril 2013.

La part des canaux digitaux dans l’ensemble des interactions des clients représentait 40% en 2013, et augmenterait de 11% en 2015, soit un total de 51%. D’après l’étude, les solutions digitales privilégiées pour les interactions clients en 2015 sont :

  • les sites web optimisés pour mobile (responsive design !)
  • les chat intégrés aux sites web
  • les sites d’avis
  • les Click to call
  • les réseaux sociaux intégrés aux sites web
  • les vidéos (publicités, démonstrations, web TV, etc.)
  • les conférences en ligne

Le niveau d’automatisation des processus de gestion des interactions cross-canal restera faible. Pourtant l’automatisation permet d’avoir à la fois un gain de temps et un gain d’argent.

A partir de 2015, les sociétés souhaitent avant tout :

  • évaluer au mieux l’expérience client
  • analyser le parcours d’un client d’un canal à un autre
  • gérer des campagnes cross-canaux
  • évaluer la performance des différents canaux
  • gérer les interactions clients
  • personnaliser le contenu du site web
  • cibler les comportements
  • mesurer la pertinence des différents canaux

Voici l’infographie menée par MARKESS International :

Interactions cross-canaux - AUTOVEILLE

 

En 2015, il faut vraiment penser au mobile marketing. Les gens navigueront, pour la plupart, avec leurs smartphones, tablettes, etc.

Qu’en pensez-vous ?

Bon courage à tous 🙂

Véronique Duong – autoveille@gmail.com

Bonjour tout le monde !

C’est la rentrée ! Pour bien commencer, je vous propose un article sur un outil de veille que je viens de tester récemment : ADDITCTOMATIC. Quand je teste des outils de veille, je n’ai jamais un regard de concurrent (car je ne vends pas mes outils d’automatisation) par rapport à ces derniers, mais plutôt, je cherche à comprendre comment fonctionnent leurs technologies et à essayer de voir comment je pourrais améliorer mon propre logiciel de veille, AUTOVEILLE Monitoring.

Logo Addictomatic - AUTOVEILLE

 

Robot d’Addictomatic

Donc, pour en revenir à ADDITCTOMATIC, c’est une plateforme de veille qui ressemble beaucoup à Netvibes en termes de fonctionnalités. On a plusieurs petits tableaux collectant différentes sources qui s’affichent à l’écran.

Pour utiliser l’outil de veille en ligne, cela est très simple :

1) Connectez-vous à http://addictomatic.com/

2) Entrez un nom de produit, une marque, un mot-clé dans la barre de recherche :

Outil de veille Addictomatic - AUTOVEILLE

 

3) Par exemple, pour « Iphone 5 », Addictomatic a collecté plusieurs informations issues de différents types de sources (Bing News, YouTube, WordPress, Flickr, etc.)

Outil de veille Addictomatic - Iphone 5 - AUTOVEILLE

 

4) Pour trier les informations, il est possible de supprimer certains tableaux qui ne vous paraissent pas utiles (par exemple, là j’ai supprimé les tableaux de YouTube, Flickr, Twitter Search, Google Blog Search) :

Outil de veille Addictomatic - AUTOVEILLE5) Il est également possible de choisir différents types de sources grâce à l’onglet « Available sources » :

Logiciel de veille - Addictomatic - AUTOVEILLEMon avis général sur l’outil : je le trouve très simple. Netvibes est un outil de collecte de données du même type mais beaucoup plus avancé en termes de fonctionnalités. Testez-le pour vous faire votre propre idée, mais je pense qu’on peut trouver mieux sur le marché.

Bon courage à tous !

Véronique Duong – autoveille@gmail.com