archive

Traitement automatique des langues

Bonjour tout le monde !

Comme prĂ©vu, je vous ai prĂ©parĂ© un article sur un nouvel outil SEO que je suis en train de prĂ©parer sur le content spinning. Ce que je vais vous montrer dans cette publication, n’est qu’un mini test. Je prĂ©cise Ă©galement que ce genre de techniques pourrait ĂȘtre pĂ©nalisĂ© par les moteurs de recherche, et que je n’utilise pas ces derniĂšres pour mes propres sites et mes sites clients car je prĂ©fĂšre rĂ©diger les textes Ă  la main.

Cependant, comme j’ai eu pas mal de demandes ces derniers temps sur les processus d’automatisation dont la réécriture automatique de contenu, j’accepte de vous faire une petite dĂ©monstration.

Pour ce test, j’ai extrait un morceau de textes (l’introduction) depuis l’article de WikipĂ©dia sur les chiens, et je l’ai retravaillĂ© automatiquement avec des synonymes.

L’extrait que j’ai rĂ©cupĂ©rĂ© est trĂšs court :

Content Spinning : Méthode SEO par AUTOVEILLE

 

J’ai dĂ©veloppĂ© un script Perl et Ă©laborĂ© un petit dictionnaire de synonymes pour faire ce test. En le lançant dans ma Konsole, j’obtiens tout d’abord un rĂ©sultat brut sans redirection vers un autre fichier .txt :

Content Spinning - Konsole : Méthode par AUTOVEILLE

 

Voici le résultat en sortie fichier .txt :

Content Spinning : Méthode Simple par AUTOVEILLE

 

Les mots encadrĂ©s en vert et en orange sont les synonymes utilisĂ©s pour ce petit texte. J’ai fait exprĂšs de ne pas tout changer dans le texte pour vous montrer comment cela marche, et surtout montrer que les substituts pourraient provoquer des non sens importants.

Dans cet exemple, les phrases font encore sens parce qu’il n’est pas trĂšs compliquĂ©, mais dans un texte plus spĂ©cialisĂ©, plus technique, cela devient n’importe quoi. Je vous conseille de rĂ©diger Ă  la main une fois de plus. Content is king, certes, mais Good Quality is God ! je dirais 😉

Des textes bien écrits par des experts donnent une meilleure image à votre site et à votre marque ! (E-réputation time ;))

Bon courage Ă  tous !

VĂ©ronique Duong –

Bonjour tout le monde !

Aujourd’hui, je vous ai prĂ©parĂ© un article qui va toucher deux disciplines qui sont Ă©troitement corrĂ©lĂ©es, Ă  savoir le traitement automatique des langues (ou ingĂ©nierie linguistique) et le rĂ©fĂ©rencement naturel (ou SEO).

Ce que vous allez lire par la suite ne sont que des hypothĂšses car je ne connais pas l’algorithme de Google, mais aprĂšs de nombreux tests, je trouve qu’il y a de (fortes) similitudes qui existent entre la mĂ©thode que j’utilise pour retrouver des pages web ou des fichiers dans mon systĂšme et celle du moteur de Google.

En effet, j’utilise souvent l’aspiration de sites web pour stocker les pages web qui m’intĂ©ressent, et pour en retrouver certaines, j’utilise des mots-clĂ©s … comme des requĂȘtes que les internautes taperaient sur Google !

Voici l’exemple de mon propre site ci-dessous. Comme vous pouvez le voir, les pages web / HTML, les images, les autres fichiers sont tous crawlĂ©s par mon logiciel de crawling (qui n’est autre que mon logiciel de veille dĂ©tournĂ© en outil de crawl) :

base de données AUTOVEILLE |Logiciel de veille

 

Ensuite, pour trier les pages HTML que j’ai dans ma base ci-dessus, je lance une requĂȘte (encadrĂ©e en vert) de ce genre dans ma Konsole :

résultats de recherche egrep AUTOVEILLE

 

Je pense que Google possĂ©derait une base de donnĂ©es gigantesque au vu du nombre de pages web qui existent, et des milliers de corpus thĂ©matiques / catĂ©goriques. A chaque requĂȘte tapĂ©e, Google essayerait de fournir la meilleure rĂ©ponse Ă  l’utilisateur parmi ses trilliards de pages HTML 🙂

Je prĂ©cise Ă©galement que mon outil de crawl / de veille ne lit et ne crawl pas les images, le JavaScript. En tout cas, il y a des choses extrĂȘmement corrĂ©lĂ©es entre le TAL et le SEO, et je m’Ă©clate en faisant des recherches, des tests dans ces deux domaines ! 🙂

TrĂšs prochainement, je vous montrerai comment faire du content spinning propre !

Bon courage Ă  tous,

VĂ©ronique Duong –

Hello tout le monde !

Un petit article pour vous parler de deux choses : la crĂ©ation de mon badge Google+ pour l’Authorship (rel=publisher) et la mise Ă  jour de mes rankings SEO.

Alors pour crĂ©er un badge Google+, cela est assez simple ! Il suffit d’avoir une page Google+ et de se rendre sur Google Developers

Ensuite, rĂ©cupĂ©rez le code HTML qui est gĂ©nĂ©rĂ© via la page Google Developpers, et insĂ©rez le dans le code HTML de votre site (lĂ  oĂč vous souhaitez qu’il apparaisse) :

Code HTML rel=publisher | AUTOVEILLE

Voici le badge que j’ai pour ma page AUTOVEILLE :

Badge Google+ AUTOVEILLE

Cela vous permet de lier votre page Google+ Ă  votre site, et d’augmenter la visibilitĂ© des deux (page et site). J’aime beaucoup les petits widgets de Google.

Par ailleurs, en faisant ma veille technologique (ou veille SEO), je constate que mes rankings commencent Ă  aller mieux. En effet, j’ai passĂ© quelques jours Ă  « dĂ©s-optimiser » ce que j’avais sur-optimisĂ© pour le test : SEO Penguin et les pĂ©nalitĂ©s que j’aurais eues.

Une de mes pages web avait pas mal chuté, mais actuellement, les choses seraient revenues à la normale :

SEO rankings d'AUTOVEILLE 28/10/2013

Bon courage Ă  tous ! GO !

VĂ©ronique Duong –

Bonjour tout le monde !

Hier soir, en faisant ma veille SEO et des vĂ©rifications de mes pages web dans Google, j’ai dĂ©couvert que le moteur de recherche affichait des titles diffĂ©rents en fonction de mes requĂȘtes !

En tapant « news autoveille« , j’avais un title « News – AUTOVEILLE – Free » qui s’affichait, alors que quand je tapais « actualitĂ©s autoveille« , j’avais le title dans mon code source qui m’Ă©tait renvoyĂ© en rĂ©ponse Ă  l’Ă©cran.

Une petite illustration pour vous permettre de mieux comprendre :

Web sĂ©mantique et SEO : affichage de title et requĂȘtes internautes

 

Cela serait plus ou moins dĂ» aux algorithmes de web sĂ©mantique que Google est en train de mettre en place dans son moteur. Google voudrait donner la meilleure rĂ©ponse possible Ă  l’internaute en lui affichant la page web la plus pertinente corrĂ©lĂ©e Ă  sa requĂȘte.

L’algorithme Hummingbird (Colibri) serait dĂ©jĂ  bel et bien mise en place dans ce cas.

Cela me fait penser Ă  une chose : les mots-clĂ©s auraient perdu beaucoup de leurs poids car dorĂ©navant de plus en plus de choses se feront en fonction de la requĂȘte de l’internaute. C’est pour cela aussi que je disais souvent qu’il ne faudrait pas se focaliser uniquement sur une dizaine de mots-clĂ©s, mais vraiment varier son champ lexical pour maximiser sa visibilitĂ© dans les SERP.

Colibri SEO - AUTOVEILLE

 

 

Source : maxisciences.com

Le web sĂ©mantique serait l’avenir du web, le web 3.0 ! Soyons prĂȘts 🙂

Bon courage !

VĂ©ronique Duong –

Hello tout le monde !

AprĂšs avoir observĂ© des variations dans mes rankings SEO, j’estime que Google Penguin est bien passĂ© par lĂ  ces derniers temps. Je me suis Ă©galement « faite attaquer » sur l’un de mes mots-clĂ©s prĂ©fĂ©rĂ©s aussi ! Ce que je vais Ă©crire par la suite concerne uniquement ma propre expĂ©rience et mes tests, car d’un site Ă  un autre, beaucoup de choses changent, et mes conseils ne seraient pas forcĂ©ment adaptĂ©s.

NĂ©anmoins, il y a des choses gĂ©nĂ©rales ou plutĂŽt « universelles » que je pense avoir plus ou moins confirmation aprĂšs ces 2 mois de tests. En effet, pendant deux Ă  trois mois, je mettais toujours la mĂȘme URL sur un mĂȘme mot-clĂ© en ancre de texte dans la plupart de mes rĂ©dactions car je voulais voir l’effet que cela ferait. Et en rĂ©alitĂ©, c’est vu comme de la sur-optimisation par Google.

L’algorithme Penguin a deux objectifs :

  • PĂ©naliser ceux qui insistent trop sur un mĂȘme mot-clĂ© on-page (mon test ci-dessus …)
  • PĂ©naliser ceux qui utilisent trop de mots-clĂ©s et ancres de liens vers leurs sites

Les conseils SEO que je pourrais vous donner :

  • Ne mettez pas tout le temps la mĂȘme URL sur un mĂȘme mot-clĂ©
  • N’exagĂ©rez pas en mettant des ancres de textes partout
  • Faites attention Ă  vos backlinks qui proviennent de sites « spam » ou « douteux » (ils sont facilement reconnaissables)

Une petite infographie pour rĂ©sumer le tout (merci Ă  froggomarketing.co.uk pour l’avoir créée) :

Infographie pénalités Pengouin AUTOVEILLE SEO

 

De mon cĂŽtĂ©, je sais ce qu’il me reste Ă  faire ! Heureusement que je n’ai testĂ© que sur un mot-clĂ© et sur une seule page web. Je n’imagine pas comment cela peut ĂȘtre dur pour les sites qui font ça sur pratiquement toutes leurs pages !

Bon courage Ă  tous,

VĂ©ronique Duong –

Hello tout le monde !

Eh oui, il arrive que Mlle V.D. ait de petits coups de blues SEO aussi. En ce moment, je commence Ă  stagner sur certains mots-clĂ©s (comme logiciel de veille, logiciel veille, entre autres), et je ne vous cache pas que cela me frustre un peu, et c’est plutĂŽt normal.

Qui d’entre nous n’a pas dĂ©jĂ  ressenti cette sensation de pression, de frustration parce que nous avons vu que notre site a perdu 2 ou 3 positions ?? Je pense que tous les SEO ressentent cela, en tout cas plus ou moins.

On se dit qu’on fait constamment des efforts, et qu’il suffirait qu’un algorithme qui passe, et tout pourrait changer (ou pas ! ^^). Pour l’instant, j’essaye de remonter sur mes requĂȘtes ciblĂ©es (logiciel de veille, logiciel veille, etc.). En SEO, rien n’est facile en fait, vu qu’on « dĂ©fie » quelque chose que l’on ne connait mĂȘme pas (algorithmes secrets).

NĂ©anmoins, j’essaye de ne pas me focaliser uniquement sur certains mots-clĂ©s, parce que si ça se trouve, les internautes ne les taperaient mĂȘme pas, mais c’est pour moi un moyen de tester mes hypothĂšses.

En effet, hier, je me suis « amusĂ©e » Ă  taper des requĂȘtes trĂšs variĂ©es plus ou moins liĂ©es Ă  mes sites AUTOVEILLE, et je vois qu’ils sont en premiĂšre page sur des mots-clĂ©s auxquels je n’y pensais jamais :

AUTOVEILLE requĂȘtes gĂ©nĂ©riques

ou encore pour le site web

AUTOVEILLE site : requĂȘtes gĂ©nĂ©riques

Le rĂ©fĂ©rencement naturel est l’une des activitĂ©s que j’aime par dessus tout, mais Ă©galement une activitĂ© qui me donne le plus de hauts et de bas (haha ;)), mais de temps en temps, je fais une pause, et je me concentre sur mon autre activitĂ© … qui est la veille d’informations stratĂ©giques ! Ou encore le dĂ©veloppement d’outils en Perl, en Shell. Je voudrais dire que le SEO sur Google ne devrait pas devenir un Ă©lĂ©ment qui occupe toutes vos pensĂ©es … d’oĂč le titre de mon article aussi.

Je pense qu’il faut rester cool, et continuer Ă  faire des efforts ! C’est connu, en SEO, il faut ĂȘtre trĂšs patient, et ĂȘtre trĂšs persĂ©vĂ©rant.

Et puis, tant mieux que Google met souvent Ă  jour ses services et ses algorithmes, ainsi, les SEO pourraient toujours s’amĂ©liorer, s’adapter, et auraient toujours quelque chose Ă  optimiser :p !

Bon courage Ă  tous ! Stay Strong !

VĂ©ronique Duong –

Bonjour tout le monde !

D’habitude le samedi, je poste des infographies ou d’autres jolies choses. Mais ce matin, j’ai dĂ©couvert que le gĂ©nĂ©rateur de mots-clĂ©s Keyword Planner propose une nouvelle fonctionnalitĂ© (voir un peu plus bas).

Avant de vous parler des nouveautĂ©s du gĂ©nĂ©rateur, petites parenthĂšses : en faisant ma veille technologique, j’ai dĂ©couvert que le bug du Google Webmaster Tools aurait Ă©tĂ© rĂ©parĂ© :

Actuellement, tout semblerait revenir Ă  la normale :

Google Webmaster Tools rĂ©parĂ© du bug fin septembre 2013Sinon oui, j’ai dĂ©couvert une nouveautĂ© dans l’outil de planification des mots-clĂ©s : une fonctionnalitĂ© qui se nomme « Multiplier les listes de mots clĂ©s pour obtenir de nouvelles idĂ©es de mots clĂ©s« .

On peut maintenant mixer deux (à trois) listes de mots-clés pour générer encore plus de combinaisons de mots-clés.

Pour l’utiliser :

1) Cliquez sur la derniĂšre rubrique :

Multiplier les listes de mots clés pour obtenir de nouvelles idées de mots clés

2) Entrez les deux (à trois) listes de mots-clés à mixer :

3 listes de mots-clĂ©s possible dans Keyword Planner3) Pour que le mixage des combinaisons fonctionne, je vous conseille d’entrer des mots uniques sĂ©parĂ©s par des virgules comme ci-dessous :

Combinaisons de mots-clĂ©s dans Keyword PlannerEuh … avec trois listes de mots-clĂ©s, ça ne marche pas du tout comme vous pouvez le voir … T_T, par contre avec deux listes, cela fonctionne bien :

Combinaisons de listes de mots-clĂ©s avec le Keyword PlannerC’est une fonctionnalitĂ© assez pratique dans le sens oĂč si jamais on n’arrive pas Ă  penser Ă  toutes les combinaisons de mots-clĂ©s possible, on peut s’en servir pour faire des mixages entre les listes. En tout cas, je pense l’utiliser 🙂

Avez-vous testĂ© ? Qu’en pensez-vous ? Pratique ? pas pratique ? Inutile ? Tous vos avis m’intĂ©ressent !

Bon courage Ă  tous,

VĂ©ronique Duong –

Bonjour tout le monde !

Ok, mon article commence par un titre relevant du jargon du traitement automatique des langues et de la fouille de textes. Vous devez vous dire « euh ok, et c’est quoi le TF-IDF ? », « qu’est ce que ça Ă  voir avec le SEO ? » … Eh bien, je vais essayer de dĂ©finir le TF-IDF en deux lignes avec des termes vulgarisĂ©s pour que vous comprenez :

Le TF-IDF (qui est le sigle de Term Frequency-Inverse Document Frequency) est une mesure statistique qui permet d’Ă©valuer l’importance d’un terme contenu dans un document ou dans un ensemble de textes. Il varie en fonction de la frĂ©quence d’apparition du mot-clĂ© dans le corpus.

Des variantes de la formule originale sont souvent utilisĂ©es dans des moteurs de recherche pour apprĂ©cier la pertinence d’un document en fonction des critĂšres de recherche de l’utilisateur. (Source : WikipĂ©dia)

Voici la formule de calcul (ça semble assez abstrait … je sais) :

Formule calcul du TF-IDF

En gros, plus un mot-clĂ© est prĂ©sent dans un document ou dans un corpus ( = base de donnĂ©es de textes), plus le TF-IDF sera Ă©levĂ© pour ce mot. Baidu utiliserait cette technologie pour faire la correspondance entre les mots-clĂ©s d’une requĂȘte d’un internaute et les documents dans sa base (dans son moteur). Ainsi, il afficherait les pages HTML qui auraient le plus de pertinence par rapport aux mots-clĂ©s de la recherche. (Source de l’article TF-IDFæĄ†æž¶äžŽSEOèĄç”Ÿ)

Nuage de mots-clés AUTOVEILLE

Apparemment, Google et Yahoo! utiliseraient aussi la formule du TF-IDF pour afficher les rĂ©sultats de recherche selon les requĂȘtes des utilisateurs. Donc, il ne faudrait plus se contenter d’optimiser certaines parties (ex : juste les mĂ©ta tags) d’une page, mais vraiment toute la page web (des mĂ©ta tags au contenu textuel) en pensant Ă  la notion de la densitĂ© de mots-clĂ©s.

Personnellement, j’utilise un script Perl pour faire le calcul du TF-IDF.

Voici une exemple plus concret de calcul de TF-IDF pour plus de clarté (tiré directement de Wikipédia) :

Calcul TF-IDF pour le SEO - AUTOVEILLE

Bon courage Ă  tous,

VĂ©ronique Duong –

Hello tout le monde !

Aujourd’hui, je reviens avec un article sur la veille automatique ou plutĂŽt comment utiliser l’outil de recherche personnalisĂ©e pour (semi) automatiser ses veilles ?

Si vous n’avez pas un outil de veille ou un logiciel de veille qui vous permet de surveiller les derniĂšres nouveautĂ©s de nos pages web prĂ©fĂ©rĂ©es, je vous conseille de crĂ©er des moteurs de recherche personnalisĂ©s de Google Ă  partir des URL de vos pages Ă  veiller.

Google - Recherche personnalisée

Google – Recherche personnalisĂ©e

Pour crĂ©er un moteur, c’est super simple, il vous suffit de suivre ces quelques Ă©tapes :

1) Cliquez sur « CrĂ©er un nouveau moteur de recherche »

2) Entrez les URL des pages web Ă  surveiller

3) Choisissez la langue du moteur

4) Cliquez sur « CrĂ©er » pour crĂ©er le moteur

Création moteur de recherche personnalisé - Google

Ensuite, vous pouvez rĂ©cupĂ©rer le code HTML du moteur et le placer dans votre site … ou obtenir l’URL publique :

Création de moteur de recherche personnalisé | AUTOVEILLE

Personnellement, je rĂ©cupĂšre l’URL de mon moteur et je la place dans mon navigateur et dans mes favoris pour pouvoir accĂ©der au moteur quand je veux ! Voici mon moteur spĂ©cial SEO ! Il n’y a pas encore beaucoup de sources, mais cela vous donnera dĂ©jĂ  une idĂ©e :

Moteur de recherche SEO créé par Véronique Duong - AUTOVEILLE

Qu’en pensez-vous ? Je trouve que ce service de Google est trĂšs pratique en tout cas !

Bonnes veilles à tous 🙂
VĂ©ronique Duong –

Bonjour Ă  tous !

Je vous propose une petite Ă©tude SEO. En ce moment, les articles sur les mots-clĂ©s en « not provided » se font trĂšs nombreux sur le web ! On peut en lire sur Webrankinfo, sur Abondance, sur Ya-Graphic.com, etc. et, en effet, je le constate par moi-mĂȘme que Google impose bel et bien le HTTPS pour tout le monde, mĂȘme aux personnes qui n’ont pas de comptes Google.

Que ça soit pour Google France :

Google France en HTTPS | AUTOVEILLE

 

Ou pour Google Suisse Français :

Google Suisse en HTTPS | AUTOVEILLE

 

Le HTTPS est imposé à toutes les versions de Google Search !

De ce fait, lorsqu’un internaute effectue ses recherches, nous, dans Google Analytics, on ne voit pas quels sont les mots-clĂ©s qu’il a tapĂ©s pour arriver sur notre site ! Par exemple, pour AUTOVEILLE :

Google Not Provided | AUTOVEILLE

J’ai un taux approchant les 80% de not provided, et c’est Ă©norme ! Je ne sais pas quels sont les mots-clĂ©s par lesquels les visiteurs arrivent sur mon site.

Par consĂ©quent, on optimise pratiquement Ă  l’aveugle (ou Ă  l’aide des autres statistiques de Keyword Planner, de Webmaster Tools, etc. mais qui ne sont pas assez prĂ©cises … je trouve).

Les autres moteurs de recherche Yahoo!, Baidu, Bing, etc. n’imposent pas un tel contrĂŽle des recherches naturelles … surement parce qu’ils ne sont pas aussi populaires et utilisĂ©s que Google …

Baidu SERPs | AUTOVEILLE

 

Yahoo! SERPs | AUTOVEILLE

 

Je pense qu’il est temps de se spĂ©cialiser sur d’autres moteurs de recherche, ou au moins de les dĂ©couvrir …

Bon courage Ă  tous !

VĂ©ronique Duong –