Les mesures de statistiques textuelles TF-IDF, Rappel, Précision vues par des experts en TAL #Interview n°1 : Damien Nouvel

Bonjour à tous !

Je vais vous proposer une petite série d’interviews d’experts en ingénierie linguistique, qui pour moi, est complètement corrélée au SEO / référencement naturel ! J’ai l’honneur de commencer cette série avec Damien Nouvel, maître de conférences à l’INALCO, et qui allait devenir mon directeur de thèses (mais à la place, j’ai publié deux bouquins ! car on ne fait pas les choses à moitié ici ;)) !

C’est parti pour l’interview :

Présentation de l’expert TAListe :

Je suis maître de conférences à l’Inalco, membre du laboratoire ERTIM. J’y travaille dans le domaine du traitement automatique des langues (TAL), en particulier sur la fouille de données textuelles et le multilinguisme pour une large variété de langues (occidentales et orientales) et pour des objectifs variés (translittération, désambiguisation lexicale, opinion, analyse textométrique, etc.). J’ai précédemment travaillé au LIMSI-CNRS (extraction d’information), à INRIA Alpage (mots hors-vocabulaire dans les fils de dépêches). Ma thèse, faite dans l’équipe BDTLN du LI de Tours, a porté sur la reconnaissance automatique des entités nommées (disons les noms propres), par d’extraction automatique de motifs séquentiels (de la fouille de données).

Comment définirais-tu la notion de TF-IDF ?

Le TF-IDF est une méthode historique, fondée dans les années 80, pour implémenter des outils de recherche d’information. L’exemple typique est le moteur de recherche, qui doit sélectionner les documents les plus pertinents pour une requête donnée. Une simple recherche booléenne dans les index donne trop de résultats, qui ne sont pas ordonnés. L’algorithme TF-IDF pallie cela en exploitant simultanément le nombre d’occurrences des termes (TF) et leur importance sémantique dans la collection de documents (IDF) pour ordonner les résultats, et présenter en haut de la liste ceux qu’un calcul statistique simple nous indique être les plus pertinents. D’autres algorithmes sont aujourd’hui plus performants, mais celui-ci reste fondateur car il est très fiable, solide et stable : il peut être implémenté facilement et constitue un excellent point de départ.

tfidf-interview-damien-nouvel-autoveille

Et pour le Rappel et la Précision ?

Pour expliquer ces deux mesures de qualité de résultats (par exemple pour un moteur de recherche), il faut faire appel à deux notions complémentaires : le silence et le bruit. Le rappel indique à quel point un algorithme donne tous les résultats attendus, sinon on dit qu’il y a du silence. La précision calcul la proportion de résultats ramenés sont pertinents, ceux qui ne le sont pas donnent du bruit. Le défi, en particulier en recherche d’information, est de trouver le meilleur compromis possible : il faut à la fois améliorer la précision et le rappel, ou, dit autrement, réduire le bruit et le silence ! Pour mesurer cela globalement, il existe une troisième métrique qui combine le rappel et la précision, que l’on appelle la F-mesure, qui est la moyenne (harmonique) des deux précédentes. Ceci dit, dans le domaine de la recherche d’information, si ces mesures restent valables, elles sont aujourd’hui moins utilisées au profit d’autres métriques plus adaptées.

Dans quels cas utilises-tu le TF-IDF ? et pourquoi ?

Le TF-DIF est implémenté dans de très nombreux langages sous forme de librairies, il nécessite très peu de programmation pour son implémentation et des ressources limitées (temps de calcul ou mémoire) lors de son exécution. Il est robuste et stable. Ainsi, lorsque je travaille sur des projets pour lesquels j’ai besoin de résultats rapidement et pour lesquels les exigences ne pas trop fortes en terme de pertinence, le TF-IDF convient très bien… si les exigences sont plus fortes, il est possible de s’en servir comme point de référence avant d’utiliser d’autres modèles plus sophistiqués, comme par exemple le LSA.
Il faut cependant noter que le TF-IDF n’exploite que les textes des documents. Ceci peut-être un avantage pour les bases documentaires, mais un inconvénient si des liens sont faits entre les documents (sur le web, les hyperliens) : ils apportent une information très importante, qui ne sera pas prise en compte par TF-IDF.

Aurais-tu un exemple concret lié à l’usage du TF-IDF ?

Une entreprise vous sollicite pour mettre en place un moteur de recherche interne sur ses documents et l’intégrer à son portail. Elle ne sait quel moteur choisir, s’il lui faut une solution gratuite ou payante et quelles technologies sont adéquates. Vous pouvez alors facilement et rapidement lui proposer un développement préliminaire : mettre en place un TF-IDF, permettre aux utilisateur de faire leurs premières requêtes, avant d’analyser les limites de cette première approche. Par la suite, selon les retours, il pourra être prioritaire d’améliorer le moteur, mais peut-être aussi de travailler sur la qualité des documents, la création de ressources adéquates pour améliorer les recherche, la mise en place d’autres fonctionnalités, etc. !

Comment vois-tu l’avenir du TAL ?

Plusieurs pistes émergent aujourd’hui. Les dernières avancées côté recherche se sont beaucoup focalisées sur l’utilisation généralisée du Deep Learning, qui a de nombreuses applications et réduisent les difficultés à mettre en œuvre certains traitements, en particulier pour la sémantique. Les progrès en reconnaissance vocale et l’engouement récent pour les systèmes de dialogues (dont les chatbots / robots) sont également très en vue et vont certainement remodeler en profondeur le paysage du TAL, à l’international comme en France. Nous constatons également l’impact, parfois trop peu visible, des systèmes de génération automatique de contenus (dont textuel), autant sur les forums que dans les médias et les réseaux sociaux, il faut être vigilant à cet égard, être conscient des limites et des risques, les utiliser à bon escient ! En lien avec cela, je me penche ces derniers temps sur la détection et la caractérisation des Fake News, qui représente à mes yeux un enjeu scientifique et sociétal majeur, nous allons d’ailleurs organiser un hackathon sur le sujet en mai.
Sur le fond, et comme je le dis souvent aux étudiants, il me semble que le TAL doit rester une discipline qui “permette aux humains de manipuler le langage par d’autres moyens et à une autre échelle”. Il est essentiel à mes yeux que les outils, ressources et technologies que nous développons restent au service du plus grand nombre !

Merci infiniment à Damien Nouvel d’avoir accepté de répondre à cette interview hyper enrichissante !

J’espère que vous comprenez mieux l’intérêt du TAL maintenant, et pourquoi je vous rabâche avec cela dans le monde du SEO 😉 C’est complétement lié !

Bon courage à tous,

Véronique Duong – Directrice associée chez Rankwell et consultante SEO certifiée CESEO !