archive

Archives de Tag: ingénierie linguistique

Bonjour tout le monde !

Durant cet Ă©tĂ©, on a beaucoup entendu parler de recherche vocale, de voice search, et de AEO (Answer Engine Optimization). J’ai de mon cĂŽtĂ© fait pas mal de petits tests, et il s’avĂšre que pour le domaine niche qu’est l’ingĂ©nierie linguistique ou le traitement automatique des langues, je suis en position 0 (featured snippet), et Google a choisi ma dĂ©finition pour la rĂ©ponse de la recherche vocale ! C’est top 🙂

Voici ma petite démo en vidéo ci-dessous :

On entend distinctement que Google lit la dĂ©finition que j’ai crĂ©Ă©e pour l’ingĂ©nierie linguistique, et encore une fois, c’est topissime ! En fait, la technologie derriĂšre, c’est de la reconnaissance vocale. En formation de traitement automatique des langues, on apprend les thĂ©ories de la reconnaissance de voix. C’est super intĂ©ressant ! Si vous voulez en savoir plus, contactez moi pour que je puisse en parler Ă  ERTIM, l’Ă©quipe de recherche « Texte, Informatique et Multilingue » Ă  l’INALCO (oĂč je suis chargĂ©e de TD).

Petit rappel au passage en parlant de AEO : j’interviens en table ronde / webinar pour SEMRush aux cĂŽtĂ©s de Jason Barnard, Philippe Yonnet, Benjamin Thiers, le 16 octobre pour vous parler de Knowledge Graph et AEO  ! Inscrivez-vous vite ci-dessous :

aeo-voice-search-semrush-veroduong-webinarTout cela est vraiment super motivant ! J’ai tellement envie de mener des tests sur les entitĂ©s nommĂ©es, les n-grams, la reconnaissance vocale ! Tout cela fait partie de mon passĂ© en tant qu’ingĂ©nieure linguiste.

Je suis super contente de voir que l’Ă©cosystĂšme SEO commence Ă  intĂ©grer pas mal de choses du TAL (traitement automatique du langage), et j’espĂšre que cela va continuer ainsi !

Sur ce, si vous avez des questions pour mettre en place des featured snippets afin d’espĂ©rer de remonter en position 0 comme dans mon test (et devant tous vos concurrents), ou des questions sur le SEO en gĂ©nĂ©ral, voire sur le SEO Baidu (encore une autre de mes spĂ©cialitĂ©s), n’hĂ©sitez pas Ă  m’envoyer un petit e-mail Ă  autoveille@gmail.com ou vduong@rankwell.fr !

Package Voice Search Optimization / Answer Engine Optimization disponible dans ma page « Mes packages et tarifs SEO »

Bon courage Ă  tous !

VĂ©ronique Duong – PassionnĂ©e de SEO et d’ingĂ©nierie linguistique informatique chez AUTOVEILLE / Directrice associĂ©e chez Rankwell

 

Publicités

Bonjour Ă  tous !

Je vais vous proposer une petite sĂ©rie d’interviews d’experts en ingĂ©nierie linguistique, qui pour moi, est complĂštement corrĂ©lĂ©e au SEO / rĂ©fĂ©rencement naturel ! J’ai l’honneur de commencer cette sĂ©rie avec Damien Nouvel, maĂźtre de confĂ©rences Ă  l’INALCO, et qui allait devenir mon directeur de thĂšses (mais Ă  la place, j’ai publiĂ© deux bouquins ! car on ne fait pas les choses Ă  moitiĂ© ici ;)) !

C’est parti pour l’interview :

PrĂ©sentation de l’expert TAListe :

Je suis maĂźtre de confĂ©rences Ă  l’Inalco, membre du laboratoire ERTIM. J’y travaille dans le domaine du traitement automatique des langues (TAL), en particulier sur la fouille de donnĂ©es textuelles et le multilinguisme pour une large variĂ©tĂ© de langues (occidentales et orientales) et pour des objectifs variĂ©s (translittĂ©ration, dĂ©sambiguisation lexicale, opinion, analyse textomĂ©trique, etc.). J’ai prĂ©cĂ©demment travaillĂ© au LIMSI-CNRS (extraction d’information), Ă  INRIA Alpage (mots hors-vocabulaire dans les fils de dĂ©pĂȘches). Ma thĂšse, faite dans l’équipe BDTLN du LI de Tours, a portĂ© sur la reconnaissance automatique des entitĂ©s nommĂ©es (disons les noms propres), par d’extraction automatique de motifs sĂ©quentiels (de la fouille de donnĂ©es).

Comment définirais-tu la notion de TF-IDF ?

Le TF-IDF est une mĂ©thode historique, fondĂ©e dans les annĂ©es 80, pour implĂ©menter des outils de recherche d’information. L’exemple typique est le moteur de recherche, qui doit sĂ©lectionner les documents les plus pertinents pour une requĂȘte donnĂ©e. Une simple recherche boolĂ©enne dans les index donne trop de rĂ©sultats, qui ne sont pas ordonnĂ©s. L’algorithme TF-IDF pallie cela en exploitant simultanĂ©ment le nombre d’occurrences des termes (TF) et leur importance sĂ©mantique dans la collection de documents (IDF) pour ordonner les rĂ©sultats, et prĂ©senter en haut de la liste ceux qu’un calcul statistique simple nous indique ĂȘtre les plus pertinents. D’autres algorithmes sont aujourd’hui plus performants, mais celui-ci reste fondateur car il est trĂšs fiable, solide et stable : il peut ĂȘtre implĂ©mentĂ© facilement et constitue un excellent point de dĂ©part.

tfidf-interview-damien-nouvel-autoveille

Et pour le Rappel et la Précision ?

Pour expliquer ces deux mesures de qualitĂ© de rĂ©sultats (par exemple pour un moteur de recherche), il faut faire appel Ă  deux notions complĂ©mentaires : le silence et le bruit. Le rappel indique Ă  quel point un algorithme donne tous les rĂ©sultats attendus, sinon on dit qu’il y a du silence. La prĂ©cision calcul la proportion de rĂ©sultats ramenĂ©s sont pertinents, ceux qui ne le sont pas donnent du bruit. Le dĂ©fi, en particulier en recherche d’information, est de trouver le meilleur compromis possible : il faut Ă  la fois amĂ©liorer la prĂ©cision et le rappel, ou, dit autrement, rĂ©duire le bruit et le silence ! Pour mesurer cela globalement, il existe une troisiĂšme mĂ©trique qui combine le rappel et la prĂ©cision, que l’on appelle la F-mesure, qui est la moyenne (harmonique) des deux prĂ©cĂ©dentes. Ceci dit, dans le domaine de la recherche d’information, si ces mesures restent valables, elles sont aujourd’hui moins utilisĂ©es au profit d’autres mĂ©triques plus adaptĂ©es.

Dans quels cas utilises-tu le TF-IDF ? et pourquoi ?

Le TF-DIF est implĂ©mentĂ© dans de trĂšs nombreux langages sous forme de librairies, il nĂ©cessite trĂšs peu de programmation pour son implĂ©mentation et des ressources limitĂ©es (temps de calcul ou mĂ©moire) lors de son exĂ©cution. Il est robuste et stable. Ainsi, lorsque je travaille sur des projets pour lesquels j’ai besoin de rĂ©sultats rapidement et pour lesquels les exigences ne pas trop fortes en terme de pertinence, le TF-IDF convient trĂšs bien
 si les exigences sont plus fortes, il est possible de s’en servir comme point de rĂ©fĂ©rence avant d’utiliser d’autres modĂšles plus sophistiquĂ©s, comme par exemple le LSA.
Il faut cependant noter que le TF-IDF n’exploite que les textes des documents. Ceci peut-ĂȘtre un avantage pour les bases documentaires, mais un inconvĂ©nient si des liens sont faits entre les documents (sur le web, les hyperliens) : ils apportent une information trĂšs importante, qui ne sera pas prise en compte par TF-IDF.

Aurais-tu un exemple concret liĂ© Ă  l’usage du TF-IDF ?

Une entreprise vous sollicite pour mettre en place un moteur de recherche interne sur ses documents et l’intĂ©grer Ă  son portail. Elle ne sait quel moteur choisir, s’il lui faut une solution gratuite ou payante et quelles technologies sont adĂ©quates. Vous pouvez alors facilement et rapidement lui proposer un dĂ©veloppement prĂ©liminaire : mettre en place un TF-IDF, permettre aux utilisateur de faire leurs premiĂšres requĂȘtes, avant d’analyser les limites de cette premiĂšre approche. Par la suite, selon les retours, il pourra ĂȘtre prioritaire d’amĂ©liorer le moteur, mais peut-ĂȘtre aussi de travailler sur la qualitĂ© des documents, la crĂ©ation de ressources adĂ©quates pour amĂ©liorer les recherche, la mise en place d’autres fonctionnalitĂ©s, etc. !

Comment vois-tu l’avenir du TAL ?

Plusieurs pistes Ă©mergent aujourd’hui. Les derniĂšres avancĂ©es cĂŽtĂ© recherche se sont beaucoup focalisĂ©es sur l’utilisation gĂ©nĂ©ralisĂ©e du Deep Learning, qui a de nombreuses applications et rĂ©duisent les difficultĂ©s Ă  mettre en Ɠuvre certains traitements, en particulier pour la sĂ©mantique. Les progrĂšs en reconnaissance vocale et l’engouement rĂ©cent pour les systĂšmes de dialogues (dont les chatbots / robots) sont Ă©galement trĂšs en vue et vont certainement remodeler en profondeur le paysage du TAL, Ă  l’international comme en France. Nous constatons Ă©galement l’impact, parfois trop peu visible, des systĂšmes de gĂ©nĂ©ration automatique de contenus (dont textuel), autant sur les forums que dans les mĂ©dias et les rĂ©seaux sociaux, il faut ĂȘtre vigilant Ă  cet Ă©gard, ĂȘtre conscient des limites et des risques, les utiliser Ă  bon escient ! En lien avec cela, je me penche ces derniers temps sur la dĂ©tection et la caractĂ©risation des Fake News, qui reprĂ©sente Ă  mes yeux un enjeu scientifique et sociĂ©tal majeur, nous allons d’ailleurs organiser un hackathon sur le sujet en mai.
Sur le fond, et comme je le dis souvent aux Ă©tudiants, il me semble que le TAL doit rester une discipline qui “permette aux humains de manipuler le langage par d’autres moyens et Ă  une autre Ă©chelle”. Il est essentiel Ă  mes yeux que les outils, ressources et technologies que nous dĂ©veloppons restent au service du plus grand nombre !

Merci infiniment Ă  Damien Nouvel d’avoir acceptĂ© de rĂ©pondre Ă  cette interview hyper enrichissante !

J’espĂšre que vous comprenez mieux l’intĂ©rĂȘt du TAL maintenant, et pourquoi je vous rabĂąche avec cela dans le monde du SEO 😉 C’est complĂ©tement liĂ© !

Bon courage Ă  tous,

VĂ©ronique Duong – Directrice associĂ©e chez Rankwell et consultante SEO certifiĂ©e CESEO !

Bonjour tout le monde !

Dans un autre article, je vous expliquais que j’utilisais des ontologies sĂ©mantiques pour crĂ©er des relations sĂ©mantiques entre les pages d’un site (surtout depuis le menu), et aujourd’hui, je vais vous parler d’une autre notion en linguistique, la taxinomie 🙂

DĂ©jĂ , qu’est ce que c’est que la taxinomie en linguistique ? Voici une dĂ©finition scientifique du terme : « Classification d’Ă©lĂ©ments, de suites d’Ă©lĂ©ments formant des listes qui permettront, par leurs rĂšgles de combinaison, de rendre compte des phrases d’une langue (d’apr. Ling. 1972). » Source : http://www.cnrtl.fr/lexicographie/taxinomie

Il ne faut pas confondre la taxinomie et la taxonomie. C’est effectivement deux choses diffĂ©rentes : La taxinomie concerne plus spĂ©cialement les questions de classification, tandis que la taxonomie se rapporte strictement aux questions de nomenclature, de liste.

On rencontre trĂšs souvent des taxinomies en biologie et dans le monde scientifique.

Voici un exemple de taxinomie des bactéries :

classification-taxonomie-des-bacteries-autoveille

Source : http://andryrasamindrakotroka.e-monsite.com/medias/album/classification-taxonomie-des-bacteries-5.jpg

Comme pour les ontologies, on part du plus gĂ©nĂ©rique au plus spĂ©cifique. Mais vous allez vous demander ce qu’est la diffĂ©rence entre ontologies et taxinomies. Voici les dĂ©finitions des deux termes :

L’ontologie est faite pour dĂ©crire le monde tel qu’il est. L’ontologie cherche Ă  dĂ©crire de façon formelle un domaine de connaissance, en identifiant les types d’objets de ce domaine, leurs propriĂ©tĂ©s et leurs relations. En SEO, c’est plutĂŽt les ontologies qu’on utilise car on est dans un mode de « relations » (et plus exactement de « relations sĂ©mantiques »).

Exemple d’ontologie oĂč on voit les liens sĂ©mantiques :

ontologie-liens-semantiques-SEO-vduong

Source : upload.wikimedia.org/wikipedia/commons/b/b1/Mason-ontology.png

La taxinomie est fait pour classer des ressources dans des dossiers, des catĂ©gories. En d’autres termes, elle dĂ©signe la « science de la classification » et par extension tout systĂšme de classification/catĂ©gorisation. Donc, en SEO, les taxinomies peuvent nous aider bien structurer un site par exemple, en classant les diffĂ©rentes pages, Ă  diffĂ©rents niveaux.

Ce sont vraiment deux concepts diffĂ©rents en linguistique qui peuvent ĂȘtre trĂšs intĂ©ressants Ă  appliquer en SEO comme vous pouvez le constater lĂ .

Si cela vous intĂ©resse, je vous ferais aussi un petit article sur les mesures de Rappel et PrĂ©cision que j’ai adorĂ©es utiliser en Master pour faire des statistiques textuelles !

Bon courage Ă  tous !

VĂ©ronique Duong – Consultante SEO certifiĂ©e et passionnĂ©e

Bonjour tout le monde !

Quand j’Ă©tais Ă©tudiante en ingĂ©nierie linguistique, on a eu des cours et des projets pour nous apprendre Ă  construire des ontologies sĂ©mantiques pour un domaine donnĂ©.

On travaillait beaucoup sur de la terminologie et de l’analyse sĂ©mantique. J’aimais beaucoup ça, et c’est vrai que grĂące au SEO, je refais parfois des ontologies, c’est-Ă -dire des graphes reprĂ©sentant des relations sĂ©mantiques. Cela ressemble Ă  ça :

Ontologie - Graphe relations sémantique - AUTOVEILLE

Source : http://theses.ulaval.ca/archimede/fichiers/24629/24629_9.png

En SEO, on part aussi du plus générique au plus spécifique. Quand je dois établir une étude de mots-clés pour un site, je pars de son menu (souvent il contient les termes plus génériques), et plus on va en catégories et sous-catégories, plus on aura des choses spécifiques. Par exemple, pour un site sur les VTT, on peut avoir une ontologie sémantique comme celle-ci qui est assez bien détaillée :

ontologie-vduong-web-semantique-VTT

Source : http://www.referencement-naturel-white-hat.fr/images/cocon-semantique-type.png

Cela permet de relier toutes les pages entre elles, et d’avoir un super maillage interne aussi !

Si vous n’avez pas fait ce travail de relation sĂ©mantique entre vos pages, vous pourriez commencer Ă  y songer car c’est important pour les utilisateurs (thĂ©matiques prĂ©cises) comme pour les moteurs de recherche. Un tel maillage sĂ©mantique entre vos pages va vous permettre d’atteindre des scores sĂ©mantiques beaucoup plus intĂ©ressants. Pour trouver les mots-clĂ©s spĂ©cifiques, j’utilise le Keyword Planner.

Si vous voulez savoir la formation que j’ai faite en Master, c’est le Master Conception de Documentation Multilingue et MultimĂ©dia et le Master IngĂ©nierie Linguistique

Une question ? Ă©crivez moi Ă  autoveille@gmail.com ou vduong@rankwell.fr

Bon courage Ă  tous !

VĂ©ronique Duong – Consultante SEO certifiĂ©e CESEO 2014  et IngĂ©nieure Linguiste (de formation)

Bonjour tout le monde !

RĂ©cemment, je sens que de plus en plus de monde veulent arrĂȘter le SEO pour faire autre chose, pour faire un mĂ©tier plus « fondĂ© » sur quelque chose, sur une « science plus exacte ». C’est vrai que, nous, les SEO sont actuellement en train de se battre contre des algorithmes qu’on ne connait pas, et il faut justifier des hausses et des baisses Ă  longueur de journĂ©e, et au bout d’un moment, cela ne paraĂźt vraiment pas « concret ».

Personnellement, je crois toujours au SEO pour le moment, car pour moi tant que les moteurs de recherche existent, tant que des sites web existent, le SEO EXISTERA toujours. D’ailleurs, je n’ai jamais dit pourquoi je me suis spĂ©cialisĂ©e sur Baidu. Auparavant, je ne travaillais que sur Google comme la plupart d’entre vous, mais un jour je me suis dit « attends, tu parles chinois, tu connais le SEO assez bien maintenant, tu peux te spĂ©cialiser sur un autre moteur de recherche, au cas oĂč si … Google disparaĂźt ou change carrĂ©ment sa mĂ©thode de fonctionnement » (bon ça m’Ă©tonnerait … mais on ne sait jamais !). Je me dis qu’il faut toujours avoir deux spĂ©cialitĂ©s, au moins. Je les ai. Mais ce n’est pas suffisant.

le-futur-seo-autoveille

Faire du SEO, c’est cool, j’audite, je vois des problĂšmes, je donne des recommandations, mais je suis encore trop dĂ©pendante d’une agence technique qui ne veut pas se bouger, trop dĂ©pendante du marketing qui doit valider les recommandations, et si les changements ne sont pas mis en place, les rĂ©sultats ne sont pas lĂ . Et je sens que ce n’est pas concret parfois.

Donc, j’ai dĂ©cidĂ© de bifurquer un peu, et de devenir une auteure de livres, une confĂ©renciĂšre, une chargĂ©e de TD dans une universitĂ© pour des Ă©tudiants en Master 2, de donner des formations, et surtout je me tourne vers le content marketing / la rĂ©daction web. Mais je reste dans la lignĂ©e du SEO.

Si un jour le SEO disparaĂźt (ce que je ne souhaite absolument pas), je ferais de la rĂ©daction technique (j’avais de trĂšs bonnes notes dans cette matiĂšre en Master 1 haha) ou de l’ingĂ©nierie linguistique pure et dure (et en plus j’aime beaucoup ça, et j’ai un diplĂŽme de Master en TAL), de la PAO, du print car j’ai une MaĂźtrise en Conception de Documentation Multilingue et MultimĂ©dia. Pour moi, ce sont des disciplines plus concrĂštes. Mais bon, on n’en est pas lĂ , et je crois sincĂšrement qu’on progresse plutĂŽt qu’on rĂ©gresse en SEO.

Je ferai toujours du SEO, mais je veux faire ressortir en moi toutes les compĂ©tences que j’ai pour m’ouvrir d’autres portes au cas oĂč … ingĂ©nierie linguistique (chef de projet R&D pour proposer des concepts et des idĂ©es innovantes), content marketing, vidĂ©o marketing, la rĂ©daction web, ĂȘtre une confĂ©renciĂšre / digital evangelist Ă  part entiĂšre, etc.

Je sais, ça fait un peu « trouillard » comment je m’exprime dans cet article, mais il faut se projeter et penser Ă  long terme. Voir plus loin.

Si vous souhaitez donner votre avis sur le SEO, je vous invite vivement à le faire dans les commentaires 🙂

Bon courage Ă  tous,

VĂ©ronique Duong – Consultante SEO certifiĂ©e CESEO 2014

Bonjour tout le monde !

Je ne pensais jamais vous parler du langage R sur ce blog ! Pour moi, R Ă©tait un outil que j’ai utilisĂ© en Master 2 d’IngĂ©nierie Linguistique, et que je ne m’en servirais pas pour le SEO ou le monde professionnel … eh bah non ! R est un outil pour calculer, gĂ©rer les statistiques, et il s’avĂšre trĂšs puissant et plus flexible que certains outils sur le marchĂ© !

J’ai mis en place une petite veille informationnelle pour voir les publications qui remontent sur R, et mon logiciel de veille a crawlĂ© une infographie sur les caractĂ©ristiques de R, et ça tombe parfaitement bien. L’illustration est signĂ©e IntelliPaat (agence digitale de big data et de e-learning indienne).

Pourquoi faut-il utiliser le langage R ?

  1. C’est Open-source et le logiciel couvre un large Ă©ventail de calculs statistiques
  2. Comparable et mĂȘme supĂ©rieur Ă  certains outils payants sur le marchĂ©
  3. Disponible pour Windows, Linux et Mac
  4. En plus des opĂ©rations statistiques, c’est une Konsole, donc un outil de programmation, qui automatise vos analyses et qui crĂ©e de nouvelles fonctions
  5. Structure de programmation orientée objet (POO)
  6. Les données sont enregistrées par session, donc pas besoin de les ressaisir à chaque fois
  7. Comme c’est un outil open-source, il y a une vague communautĂ© de statisticiens qui l’utilisent et qui sont prĂȘts Ă  vous aider

Voici l’infographie en question :

Langage R : les caractéristiques - SEO - AUTOVEILLE

J’ai retrouvĂ© mes cours de M2 sur R, et on s’en servait surtout pour calculer la frĂ©quence des mots-clĂ©s dans des corpus, on faisait des matrices, des graphes, etc. Voici un petit extrait d’un de mes exercices Ă  l’Ă©poque :

Langage R - Statistiques textuelles - AUTOVEILLE

Cela fait 5 ans que je n’en ai pas fait, mais je vais m’y remettre ! C’est un langage que je connais, et je ne veux pas laisser passer cette opportunitĂ© ! 🙂

Et vous ? programmez-vous en R ?

Si vous avez la moindre question sur le traitement automatique des langues, le SEO, l’automatisation de la veille stratĂ©gique, etc. Ă©crivez-moi Ă  autoveille@gmail.com

Bon courage Ă  tous !

VĂ©ronique Duong – Consultante SEO certifiĂ©e CESEO

 

Bonjour tout le monde !

Pour continuer sur le sujet des futures tendances, j’ai trouvĂ©, grĂące Ă  mon logiciel de veille, une infographie trĂšs intĂ©ressante  sur l’avenir des moteurs de recherche.

RĂ©cemment, j’ai rĂ©digĂ© quelques articles sur l’avenir du search avec la mise en place de l’algorithme Hummingbird, du web sĂ©mantique (web 3.0), etc. Vous pouvez lire ces articles sur mon blog AUTOVEILLE MultimĂ©dia.

Cette nouvelle infographie indique que le Knowledge Graph va prendre encore plus d’ampleur dans ces prochaines annĂ©es, les rĂ©seaux sociaux seront indispensables pour ĂȘtre visible sur le web (c’est dĂ©jĂ  actuellement le cas !), la recherche mobile continuera Ă  croĂźtre jusqu’en 2018 (dĂ©laissant derriĂšre la recherche sur PC).

Les recherches locales seront aussi trĂšs importantes pour le futur du web, pensez donc Ă  vous crĂ©er une page Google+ Local dĂšs aujourd’hui si ce n’est pas encore fait, par exemple.

N’oublions pas Ă©galement l’expĂ©rience utilisateur qui est primordial (au final) pour la durĂ©e de vie d’un site. Si un site propose un design original, ergonomique et Ă©galement un contenu intĂ©ressant et informatif sur les produits et les services, il aura toutes les chances de marcher et d’avoir un trafic fort.

Sans plus tarder, voici l’infographie en question ! 🙂 Elle a Ă©tĂ© rĂ©alisĂ©e par Siteber :

L'avenir des moteurs de recherche SEO et SEA - AUTOVEILLE

 

Je suis trĂšs intĂ©ressĂ©e par les sujets liĂ©s au web sĂ©mantique, web 3.0, et TF-IDF en ce moment (aprĂšs en tant qu’ingĂ©nieure linguiste, c’est un peu normal me diriez-vous …), mais … vraiment au point de vouloir me remettre Ă  faire de la recherche dessus. AprĂšs l’entrepreneuriat, je me lance dans un doctorat ? 🙂 On verra !

Si vous avez besoin de conseils, de guidelines pour vos projets SEO, de veille stratĂ©gique, d’ingĂ©nierie linguistique, n’hĂ©sitez pas Ă  m’Ă©crire Ă  autoveille@gmail.com

Bon courage Ă  tous !

VĂ©ronique Duong –

%d blogueurs aiment cette page :