archive

ingénierie linguistique

Bonjour tout le monde !

Je m’adresse Ă  tous les content strategist, content specialist, toutes les personnes qui travaillent avec les contenus et qui ont besoin de les rendre SEO-friendly : On a mis en en place une solution automatique pour extraire les contenus des rubriques intĂ©ressantes (fiches produits, best sellers, actualitĂ©s, etc.) d’un site afin qu’ils puissent ĂȘtre optimisĂ©s ensuite.

A l’heure actuelle, il n’existe pas vraiment d’outils ou de logiciels gĂ©nĂ©riques (si ce n’est que des scripts sur-mesure) pour crawler les contenus textuels d’un site et qui puissent sortir des donnĂ©es exhaustives sur ces derniers.

Problématiques de Crawler de Contenu :

Est-ce que le site de mon client est optimisé sémantiquement parlant ?
➔ NON > OK, pas de chaüne de traitement à mettre en place
➔ OUI > Pour quels mots-clĂ©s ? (On n’a pas de crawler de contenu qui permet de les trouver automatiquement)
➔ Il faut ensuite calculer le poids des mots-clĂ©s dans le site au global (mais comment dĂ©terminer ce poids ?), et calculer la pertinence des pages par mots-clĂ©s (quel poids pour quel critĂšre ? et quels documents parlent de ces mots-clĂ©s ?)
➔ Pour les mots-clĂ©s, on doit calculer les positions, les volumes de recherche, les poids et pertinence de ces derniers

On aura donc besoin de deux corpus : le corpus de test (le site du client), et un corpus d’apprentissage (les sites des concurrents), par exemple.

Exemple de scraping de contenu de fiches produits (extraction brute) :

crawler-semantique-seo-veroduong

On est Ă  la phase prototype ! Si vous voulez rejoindre ce projet innovant, Ă©crivez-moi vite Ă  autoveille@gmail.com ou vduong@rankwell.fr

Bon courage Ă  tous !

VĂ©ronique Duong – TAListe x SEO lover & Directrice @Rankwell

Publicités

Bonjour tout le monde !

Durant cet Ă©tĂ©, on a beaucoup entendu parler de recherche vocale, de voice search, et de AEO (Answer Engine Optimization). J’ai de mon cĂŽtĂ© fait pas mal de petits tests, et il s’avĂšre que pour le domaine niche qu’est l’ingĂ©nierie linguistique ou le traitement automatique des langues, je suis en position 0 (featured snippet), et Google a choisi ma dĂ©finition pour la rĂ©ponse de la recherche vocale ! C’est top 🙂

Voici ma petite démo en vidéo ci-dessous :

On entend distinctement que Google lit la dĂ©finition que j’ai crĂ©Ă©e pour l’ingĂ©nierie linguistique, et encore une fois, c’est topissime ! En fait, la technologie derriĂšre, c’est de la reconnaissance vocale. En formation de traitement automatique des langues, on apprend les thĂ©ories de la reconnaissance de voix. C’est super intĂ©ressant ! Si vous voulez en savoir plus, contactez moi pour que je puisse en parler Ă  ERTIM, l’Ă©quipe de recherche « Texte, Informatique et Multilingue » Ă  l’INALCO (oĂč je suis chargĂ©e de TD).

Petit rappel au passage en parlant de AEO : j’interviens en table ronde / webinar pour SEMRush aux cĂŽtĂ©s de Jason Barnard, Philippe Yonnet, Benjamin Thiers, le 16 octobre pour vous parler de Knowledge Graph et AEO  ! Inscrivez-vous vite ci-dessous :

aeo-voice-search-semrush-veroduong-webinarTout cela est vraiment super motivant ! J’ai tellement envie de mener des tests sur les entitĂ©s nommĂ©es, les n-grams, la reconnaissance vocale ! Tout cela fait partie de mon passĂ© en tant qu’ingĂ©nieure linguiste.

Je suis super contente de voir que l’Ă©cosystĂšme SEO commence Ă  intĂ©grer pas mal de choses du TAL (traitement automatique du langage), et j’espĂšre que cela va continuer ainsi !

Sur ce, si vous avez des questions pour mettre en place des featured snippets afin d’espĂ©rer de remonter en position 0 comme dans mon test (et devant tous vos concurrents), ou des questions sur le SEO en gĂ©nĂ©ral, voire sur le SEO Baidu (encore une autre de mes spĂ©cialitĂ©s), n’hĂ©sitez pas Ă  m’envoyer un petit e-mail Ă  autoveille@gmail.com ou vduong@rankwell.fr !

Package Voice Search Optimization / Answer Engine Optimization disponible dans ma page « Mes packages et tarifs SEO »

Bon courage Ă  tous !

VĂ©ronique Duong – PassionnĂ©e de SEO et d’ingĂ©nierie linguistique informatique chez AUTOVEILLE / Directrice associĂ©e chez Rankwell

 

Bonjour tout le monde !

SI vous suivez mon blog depuis un moment, vous savez certainement que je suis ingénieure linguiste de formation, et je suis méga sensible aux évolutions dans le monde du traitement automatique des langues !

L’an passĂ©, j’ai fait le HackaTAL sur l’analyse d’opinions, et cela m’a rappelĂ© beaucoup d’Ă©tudes et d’analyses que je faisais en Master 2 ! C’Ă©tait gĂ©nial, j’ai adorĂ© 🙂 Et pour cause, c’Ă©tait mon Ă©quipe, Wild, qui avait gagnĂ© le HackaTAL 2017 !

Cette annĂ©e, le HackaTAL revient sur un sujet qui a Ă©tĂ© d’actualitĂ© : les Fake News !

fake-news-autoveille-veroduong-SEO

Je vous laisse découvrir le programme ci-dessous :

Description

Dans le cadre de la confĂ©rence TALN-RECITAL 2018, sera organisĂ© un hackathon, la troisiĂšme Ă©dition cĂŽtĂ© CORIA (Hack Days) et TALN (HackaTAL) et sera dĂ©diĂ© Ă  des problĂ©matiques liĂ©es Ă  la RI et au TAL. L’objectif est de rĂ©unir ces communautĂ©s autour de dĂ©fis Ă  relever Ă  l’aide de donnĂ©es et briques logicielles, en consacrant ces journĂ©es Ă  modĂ©liser, prototyper, coder, expĂ©rimenter, dĂ©velopper, tester, Ă©valuer, comparer, Ă©changer, etc. – par Ă©quipes et dans une ambiance dĂ©contractĂ©e 🙂

Les tĂąches proposĂ©es cette annĂ©e seront centrĂ©es sur la dĂ©tection et le traitement des fake news (Ă  prĂ©ciser), en interaction avec le monde des mĂ©dias et les journalistes. L’évĂ©nement est ouvert Ă  tous, ne nĂ©cessite pas de prĂ©paration particuliĂšre (sauf d’amener sa machine) et ne requiert pas de compĂ©tences spĂ©cifiques aux tĂąches que nous proposons : tout le monde est bienvenu !
TĂąches

Quelques questions parmi celles évoquées :

peut-on caractériser le langage des fake news point de vue linguistique ?
peut-on évaluer une échelle sur laquelle placer un article quant à sa vérifiabilité ?
peut-on catégoriser des articles, par exemple dans les classes suivantes : fiables / parodiques / orientés / douteux (cf Datapol Science Po) ?
comment assister au mieux un journaliste dans sa tĂąche de debunking ?
est-il possible d’utiliser des sources d’informations telles que twitter (contenu) ou bien le web (graphe des liens) pour repĂ©rer les fake news ?

Pour en savoir plus, je vous invite à aller sur le site du Hackathon : https://hackatal.github.io/2018/

Je pense m’y inscrire pour cette session car j’ai trĂšs envie de me pencher sur le sujet des Fake news aussi !

Bon courage Ă  tous !

VĂ©ronique Duong – Consultante SEO certifiĂ©e CESEO / IngĂ©nieure Linguiste / Directrice associĂ©e @Rankwell

Bonjour Ă  tous !

Je vais vous proposer une petite sĂ©rie d’interviews d’experts en ingĂ©nierie linguistique, qui pour moi, est complĂštement corrĂ©lĂ©e au SEO / rĂ©fĂ©rencement naturel ! J’ai l’honneur de commencer cette sĂ©rie avec Damien Nouvel, maĂźtre de confĂ©rences Ă  l’INALCO, et qui allait devenir mon directeur de thĂšses (mais Ă  la place, j’ai publiĂ© deux bouquins ! car on ne fait pas les choses Ă  moitiĂ© ici ;)) !

C’est parti pour l’interview :

PrĂ©sentation de l’expert TAListe :

Je suis maĂźtre de confĂ©rences Ă  l’Inalco, membre du laboratoire ERTIM. J’y travaille dans le domaine du traitement automatique des langues (TAL), en particulier sur la fouille de donnĂ©es textuelles et le multilinguisme pour une large variĂ©tĂ© de langues (occidentales et orientales) et pour des objectifs variĂ©s (translittĂ©ration, dĂ©sambiguisation lexicale, opinion, analyse textomĂ©trique, etc.). J’ai prĂ©cĂ©demment travaillĂ© au LIMSI-CNRS (extraction d’information), Ă  INRIA Alpage (mots hors-vocabulaire dans les fils de dĂ©pĂȘches). Ma thĂšse, faite dans l’équipe BDTLN du LI de Tours, a portĂ© sur la reconnaissance automatique des entitĂ©s nommĂ©es (disons les noms propres), par d’extraction automatique de motifs sĂ©quentiels (de la fouille de donnĂ©es).

Comment définirais-tu la notion de TF-IDF ?

Le TF-IDF est une mĂ©thode historique, fondĂ©e dans les annĂ©es 80, pour implĂ©menter des outils de recherche d’information. L’exemple typique est le moteur de recherche, qui doit sĂ©lectionner les documents les plus pertinents pour une requĂȘte donnĂ©e. Une simple recherche boolĂ©enne dans les index donne trop de rĂ©sultats, qui ne sont pas ordonnĂ©s. L’algorithme TF-IDF pallie cela en exploitant simultanĂ©ment le nombre d’occurrences des termes (TF) et leur importance sĂ©mantique dans la collection de documents (IDF) pour ordonner les rĂ©sultats, et prĂ©senter en haut de la liste ceux qu’un calcul statistique simple nous indique ĂȘtre les plus pertinents. D’autres algorithmes sont aujourd’hui plus performants, mais celui-ci reste fondateur car il est trĂšs fiable, solide et stable : il peut ĂȘtre implĂ©mentĂ© facilement et constitue un excellent point de dĂ©part.

tfidf-interview-damien-nouvel-autoveille

Et pour le Rappel et la Précision ?

Pour expliquer ces deux mesures de qualitĂ© de rĂ©sultats (par exemple pour un moteur de recherche), il faut faire appel Ă  deux notions complĂ©mentaires : le silence et le bruit. Le rappel indique Ă  quel point un algorithme donne tous les rĂ©sultats attendus, sinon on dit qu’il y a du silence. La prĂ©cision calcul la proportion de rĂ©sultats ramenĂ©s sont pertinents, ceux qui ne le sont pas donnent du bruit. Le dĂ©fi, en particulier en recherche d’information, est de trouver le meilleur compromis possible : il faut Ă  la fois amĂ©liorer la prĂ©cision et le rappel, ou, dit autrement, rĂ©duire le bruit et le silence ! Pour mesurer cela globalement, il existe une troisiĂšme mĂ©trique qui combine le rappel et la prĂ©cision, que l’on appelle la F-mesure, qui est la moyenne (harmonique) des deux prĂ©cĂ©dentes. Ceci dit, dans le domaine de la recherche d’information, si ces mesures restent valables, elles sont aujourd’hui moins utilisĂ©es au profit d’autres mĂ©triques plus adaptĂ©es.

Dans quels cas utilises-tu le TF-IDF ? et pourquoi ?

Le TF-DIF est implĂ©mentĂ© dans de trĂšs nombreux langages sous forme de librairies, il nĂ©cessite trĂšs peu de programmation pour son implĂ©mentation et des ressources limitĂ©es (temps de calcul ou mĂ©moire) lors de son exĂ©cution. Il est robuste et stable. Ainsi, lorsque je travaille sur des projets pour lesquels j’ai besoin de rĂ©sultats rapidement et pour lesquels les exigences ne pas trop fortes en terme de pertinence, le TF-IDF convient trĂšs bien
 si les exigences sont plus fortes, il est possible de s’en servir comme point de rĂ©fĂ©rence avant d’utiliser d’autres modĂšles plus sophistiquĂ©s, comme par exemple le LSA.
Il faut cependant noter que le TF-IDF n’exploite que les textes des documents. Ceci peut-ĂȘtre un avantage pour les bases documentaires, mais un inconvĂ©nient si des liens sont faits entre les documents (sur le web, les hyperliens) : ils apportent une information trĂšs importante, qui ne sera pas prise en compte par TF-IDF.

Aurais-tu un exemple concret liĂ© Ă  l’usage du TF-IDF ?

Une entreprise vous sollicite pour mettre en place un moteur de recherche interne sur ses documents et l’intĂ©grer Ă  son portail. Elle ne sait quel moteur choisir, s’il lui faut une solution gratuite ou payante et quelles technologies sont adĂ©quates. Vous pouvez alors facilement et rapidement lui proposer un dĂ©veloppement prĂ©liminaire : mettre en place un TF-IDF, permettre aux utilisateur de faire leurs premiĂšres requĂȘtes, avant d’analyser les limites de cette premiĂšre approche. Par la suite, selon les retours, il pourra ĂȘtre prioritaire d’amĂ©liorer le moteur, mais peut-ĂȘtre aussi de travailler sur la qualitĂ© des documents, la crĂ©ation de ressources adĂ©quates pour amĂ©liorer les recherche, la mise en place d’autres fonctionnalitĂ©s, etc. !

Comment vois-tu l’avenir du TAL ?

Plusieurs pistes Ă©mergent aujourd’hui. Les derniĂšres avancĂ©es cĂŽtĂ© recherche se sont beaucoup focalisĂ©es sur l’utilisation gĂ©nĂ©ralisĂ©e du Deep Learning, qui a de nombreuses applications et rĂ©duisent les difficultĂ©s Ă  mettre en Ɠuvre certains traitements, en particulier pour la sĂ©mantique. Les progrĂšs en reconnaissance vocale et l’engouement rĂ©cent pour les systĂšmes de dialogues (dont les chatbots / robots) sont Ă©galement trĂšs en vue et vont certainement remodeler en profondeur le paysage du TAL, Ă  l’international comme en France. Nous constatons Ă©galement l’impact, parfois trop peu visible, des systĂšmes de gĂ©nĂ©ration automatique de contenus (dont textuel), autant sur les forums que dans les mĂ©dias et les rĂ©seaux sociaux, il faut ĂȘtre vigilant Ă  cet Ă©gard, ĂȘtre conscient des limites et des risques, les utiliser Ă  bon escient ! En lien avec cela, je me penche ces derniers temps sur la dĂ©tection et la caractĂ©risation des Fake News, qui reprĂ©sente Ă  mes yeux un enjeu scientifique et sociĂ©tal majeur, nous allons d’ailleurs organiser un hackathon sur le sujet en mai.
Sur le fond, et comme je le dis souvent aux Ă©tudiants, il me semble que le TAL doit rester une discipline qui “permette aux humains de manipuler le langage par d’autres moyens et Ă  une autre Ă©chelle”. Il est essentiel Ă  mes yeux que les outils, ressources et technologies que nous dĂ©veloppons restent au service du plus grand nombre !

Merci infiniment Ă  Damien Nouvel d’avoir acceptĂ© de rĂ©pondre Ă  cette interview hyper enrichissante !

J’espĂšre que vous comprenez mieux l’intĂ©rĂȘt du TAL maintenant, et pourquoi je vous rabĂąche avec cela dans le monde du SEO 😉 C’est complĂ©tement liĂ© !

Bon courage Ă  tous,

VĂ©ronique Duong – Directrice associĂ©e chez Rankwell et consultante SEO certifiĂ©e CESEO !

%d blogueurs aiment cette page :