Bonjour Ă tous !
Je vais vous proposer une petite sĂ©rie d’interviews d’experts en ingĂ©nierie linguistique, qui pour moi, est complĂštement corrĂ©lĂ©e au SEO / rĂ©fĂ©rencement naturel ! J’ai l’honneur de commencer cette sĂ©rie avec Damien Nouvel, maĂźtre de confĂ©rences Ă l’INALCO, et qui allait devenir mon directeur de thĂšses (mais Ă la place, j’ai publiĂ© deux bouquins ! car on ne fait pas les choses Ă moitiĂ© ici ;)) !
C’est parti pour l’interview :
PrĂ©sentation de lâexpert TAListe :
Je suis maĂźtre de confĂ©rences Ă l’Inalco, membre du laboratoire ERTIM. Jây travaille dans le domaine du traitement automatique des langues (TAL), en particulier sur la fouille de donnĂ©es textuelles et le multilinguisme pour une large variĂ©tĂ© de langues (occidentales et orientales) et pour des objectifs variĂ©s (translittĂ©ration, dĂ©sambiguisation lexicale, opinion, analyse textomĂ©trique, etc.). Jâai prĂ©cĂ©demment travaillĂ© au LIMSI-CNRS (extraction dâinformation), Ă INRIA Alpage (mots hors-vocabulaire dans les fils de dĂ©pĂȘches). Ma thĂšse, faite dans lâĂ©quipe BDTLN du LI de Tours, a portĂ© sur la reconnaissance automatique des entitĂ©s nommĂ©es (disons les noms propres), par dâextraction automatique de motifs sĂ©quentiels (de la fouille de donnĂ©es).
Comment définirais-tu la notion de TF-IDF ?
Le TF-IDF est une mĂ©thode historique, fondĂ©e dans les annĂ©es 80, pour implĂ©menter des outils de recherche dâinformation. Lâexemple typique est le moteur de recherche, qui doit sĂ©lectionner les documents les plus pertinents pour une requĂȘte donnĂ©e. Une simple recherche boolĂ©enne dans les index donne trop de rĂ©sultats, qui ne sont pas ordonnĂ©s. Lâalgorithme TF-IDF pallie cela en exploitant simultanĂ©ment le nombre dâoccurrences des termes (TF) et leur importance sĂ©mantique dans la collection de documents (IDF) pour ordonner les rĂ©sultats, et prĂ©senter en haut de la liste ceux quâun calcul statistique simple nous indique ĂȘtre les plus pertinents. Dâautres algorithmes sont aujourdâhui plus performants, mais celui-ci reste fondateur car il est trĂšs fiable, solide et stable : il peut ĂȘtre implĂ©mentĂ© facilement et constitue un excellent point de dĂ©part.
Et pour le Rappel et la Précision ?
Pour expliquer ces deux mesures de qualitĂ© de rĂ©sultats (par exemple pour un moteur de recherche), il faut faire appel Ă deux notions complĂ©mentaires : le silence et le bruit. Le rappel indique Ă quel point un algorithme donne tous les rĂ©sultats attendus, sinon on dit quâil y a du silence. La prĂ©cision calcul la proportion de rĂ©sultats ramenĂ©s sont pertinents, ceux qui ne le sont pas donnent du bruit. Le dĂ©fi, en particulier en recherche dâinformation, est de trouver le meilleur compromis possible : il faut Ă la fois amĂ©liorer la prĂ©cision et le rappel, ou, dit autrement, rĂ©duire le bruit et le silence ! Pour mesurer cela globalement, il existe une troisiĂšme mĂ©trique qui combine le rappel et la prĂ©cision, que lâon appelle la F-mesure, qui est la moyenne (harmonique) des deux prĂ©cĂ©dentes. Ceci dit, dans le domaine de la recherche dâinformation, si ces mesures restent valables, elles sont aujourdâhui moins utilisĂ©es au profit dâautres mĂ©triques plus adaptĂ©es.
Dans quels cas utilises-tu le TF-IDF ? et pourquoi ?
Le TF-DIF est implĂ©mentĂ© dans de trĂšs nombreux langages sous forme de librairies, il nĂ©cessite trĂšs peu de programmation pour son implĂ©mentation et des ressources limitĂ©es (temps de calcul ou mĂ©moire) lors de son exĂ©cution. Il est robuste et stable. Ainsi, lorsque je travaille sur des projets pour lesquels jâai besoin de rĂ©sultats rapidement et pour lesquels les exigences ne pas trop fortes en terme de pertinence, le TF-IDF convient trĂšs bien⊠si les exigences sont plus fortes, il est possible de sâen servir comme point de rĂ©fĂ©rence avant dâutiliser dâautres modĂšles plus sophistiquĂ©s, comme par exemple le LSA.
Il faut cependant noter que le TF-IDF nâexploite que les textes des documents. Ceci peut-ĂȘtre un avantage pour les bases documentaires, mais un inconvĂ©nient si des liens sont faits entre les documents (sur le web, les hyperliens) : ils apportent une information trĂšs importante, qui ne sera pas prise en compte par TF-IDF.
Aurais-tu un exemple concret liĂ© Ă lâusage du TF-IDF ?
Une entreprise vous sollicite pour mettre en place un moteur de recherche interne sur ses documents et lâintĂ©grer Ă son portail. Elle ne sait quel moteur choisir, sâil lui faut une solution gratuite ou payante et quelles technologies sont adĂ©quates. Vous pouvez alors facilement et rapidement lui proposer un dĂ©veloppement prĂ©liminaire : mettre en place un TF-IDF, permettre aux utilisateur de faire leurs premiĂšres requĂȘtes, avant dâanalyser les limites de cette premiĂšre approche. Par la suite, selon les retours, il pourra ĂȘtre prioritaire dâamĂ©liorer le moteur, mais peut-ĂȘtre aussi de travailler sur la qualitĂ© des documents, la crĂ©ation de ressources adĂ©quates pour amĂ©liorer les recherche, la mise en place dâautres fonctionnalitĂ©s, etc. !
Comment vois-tu lâavenir du TAL ?
Plusieurs pistes Ă©mergent aujourdâhui. Les derniĂšres avancĂ©es cĂŽtĂ© recherche se sont beaucoup focalisĂ©es sur lâutilisation gĂ©nĂ©ralisĂ©e du Deep Learning, qui a de nombreuses applications et rĂ©duisent les difficultĂ©s Ă mettre en Ćuvre certains traitements, en particulier pour la sĂ©mantique. Les progrĂšs en reconnaissance vocale et lâengouement rĂ©cent pour les systĂšmes de dialogues (dont les chatbots / robots) sont Ă©galement trĂšs en vue et vont certainement remodeler en profondeur le paysage du TAL, Ă lâinternational comme en France. Nous constatons Ă©galement lâimpact, parfois trop peu visible, des systĂšmes de gĂ©nĂ©ration automatique de contenus (dont textuel), autant sur les forums que dans les mĂ©dias et les rĂ©seaux sociaux, il faut ĂȘtre vigilant Ă cet Ă©gard, ĂȘtre conscient des limites et des risques, les utiliser Ă bon escient ! En lien avec cela, je me penche ces derniers temps sur la dĂ©tection et la caractĂ©risation des Fake News, qui reprĂ©sente Ă mes yeux un enjeu scientifique et sociĂ©tal majeur, nous allons dâailleurs organiser un hackathon sur le sujet en mai.
Sur le fond, et comme je le dis souvent aux Ă©tudiants, il me semble que le TAL doit rester une discipline qui âpermette aux humains de manipuler le langage par dâautres moyens et Ă une autre Ă©chelleâ. Il est essentiel Ă mes yeux que les outils, ressources et technologies que nous dĂ©veloppons restent au service du plus grand nombre !
Merci infiniment Ă Damien Nouvel d’avoir acceptĂ© de rĂ©pondre Ă cette interview hyper enrichissante !
J’espĂšre que vous comprenez mieux l’intĂ©rĂȘt du TAL maintenant, et pourquoi je vous rabĂąche avec cela dans le monde du SEO đ C’est complĂ©tement liĂ© !
Bon courage Ă tous,
VĂ©ronique Duong – Directrice associĂ©e chez Rankwell et consultante SEO certifiĂ©e CESEO !