Les mesures de statistiques textuelles TF-IDF, Rappel, Précision vues par des experts en TAL #Interview n°1 : Damien Nouvel

Bonjour à tous !

Je vais vous proposer une petite série d’interviews d’experts en ingénierie linguistique, qui pour moi, est complètement corrélée au SEO / référencement naturel ! J’ai l’honneur de commencer cette série avec Damien Nouvel, maître de conférences à l’INALCO, et qui allait devenir mon directeur de thèses (mais à la place, j’ai publié deux bouquins ! car on ne fait pas les choses à moitié ici ;)) !

C’est parti pour l’interview :

Présentation de l’expert TAListe :

Je suis maître de conférences à l’Inalco, membre du laboratoire ERTIM. J’y travaille dans le domaine du traitement automatique des langues (TAL), en particulier sur la fouille de données textuelles et le multilinguisme pour une large variété de langues (occidentales et orientales) et pour des objectifs variés (translittération, désambiguisation lexicale, opinion, analyse textométrique, etc.). J’ai précédemment travaillé au LIMSI-CNRS (extraction d’information), à INRIA Alpage (mots hors-vocabulaire dans les fils de dépêches). Ma thèse, faite dans l’équipe BDTLN du LI de Tours, a porté sur la reconnaissance automatique des entités nommées (disons les noms propres), par d’extraction automatique de motifs séquentiels (de la fouille de données).

Comment définirais-tu la notion de TF-IDF ?

Le TF-IDF est une méthode historique, fondée dans les années 80, pour implémenter des outils de recherche d’information. L’exemple typique est le moteur de recherche, qui doit sélectionner les documents les plus pertinents pour une requête donnée. Une simple recherche booléenne dans les index donne trop de résultats, qui ne sont pas ordonnés. L’algorithme TF-IDF pallie cela en exploitant simultanément le nombre d’occurrences des termes (TF) et leur importance sémantique dans la collection de documents (IDF) pour ordonner les résultats, et présenter en haut de la liste ceux qu’un calcul statistique simple nous indique être les plus pertinents. D’autres algorithmes sont aujourd’hui plus performants, mais celui-ci reste fondateur car il est très fiable, solide et stable : il peut être implémenté facilement et constitue un excellent point de départ.

tfidf-interview-damien-nouvel-autoveille

Et pour le Rappel et la Précision ?

Pour expliquer ces deux mesures de qualité de résultats (par exemple pour un moteur de recherche), il faut faire appel à deux notions complémentaires : le silence et le bruit. Le rappel indique à quel point un algorithme donne tous les résultats attendus, sinon on dit qu’il y a du silence. La précision calcul la proportion de résultats ramenés sont pertinents, ceux qui ne le sont pas donnent du bruit. Le défi, en particulier en recherche d’information, est de trouver le meilleur compromis possible : il faut à la fois améliorer la précision et le rappel, ou, dit autrement, réduire le bruit et le silence ! Pour mesurer cela globalement, il existe une troisième métrique qui combine le rappel et la précision, que l’on appelle la F-mesure, qui est la moyenne (harmonique) des deux précédentes. Ceci dit, dans le domaine de la recherche d’information, si ces mesures restent valables, elles sont aujourd’hui moins utilisées au profit d’autres métriques plus adaptées.

Dans quels cas utilises-tu le TF-IDF ? et pourquoi ?

Le TF-DIF est implémenté dans de très nombreux langages sous forme de librairies, il nécessite très peu de programmation pour son implémentation et des ressources limitées (temps de calcul ou mémoire) lors de son exécution. Il est robuste et stable. Ainsi, lorsque je travaille sur des projets pour lesquels j’ai besoin de résultats rapidement et pour lesquels les exigences ne pas trop fortes en terme de pertinence, le TF-IDF convient très bien… si les exigences sont plus fortes, il est possible de s’en servir comme point de référence avant d’utiliser d’autres modèles plus sophistiqués, comme par exemple le LSA.
Il faut cependant noter que le TF-IDF n’exploite que les textes des documents. Ceci peut-être un avantage pour les bases documentaires, mais un inconvénient si des liens sont faits entre les documents (sur le web, les hyperliens) : ils apportent une information très importante, qui ne sera pas prise en compte par TF-IDF.

Aurais-tu un exemple concret lié à l’usage du TF-IDF ?

Une entreprise vous sollicite pour mettre en place un moteur de recherche interne sur ses documents et l’intégrer à son portail. Elle ne sait quel moteur choisir, s’il lui faut une solution gratuite ou payante et quelles technologies sont adéquates. Vous pouvez alors facilement et rapidement lui proposer un développement préliminaire : mettre en place un TF-IDF, permettre aux utilisateur de faire leurs premières requêtes, avant d’analyser les limites de cette première approche. Par la suite, selon les retours, il pourra être prioritaire d’améliorer le moteur, mais peut-être aussi de travailler sur la qualité des documents, la création de ressources adéquates pour améliorer les recherche, la mise en place d’autres fonctionnalités, etc. !

Comment vois-tu l’avenir du TAL ?

Plusieurs pistes émergent aujourd’hui. Les dernières avancées côté recherche se sont beaucoup focalisées sur l’utilisation généralisée du Deep Learning, qui a de nombreuses applications et réduisent les difficultés à mettre en œuvre certains traitements, en particulier pour la sémantique. Les progrès en reconnaissance vocale et l’engouement récent pour les systèmes de dialogues (dont les chatbots / robots) sont également très en vue et vont certainement remodeler en profondeur le paysage du TAL, à l’international comme en France. Nous constatons également l’impact, parfois trop peu visible, des systèmes de génération automatique de contenus (dont textuel), autant sur les forums que dans les médias et les réseaux sociaux, il faut être vigilant à cet égard, être conscient des limites et des risques, les utiliser à bon escient ! En lien avec cela, je me penche ces derniers temps sur la détection et la caractérisation des Fake News, qui représente à mes yeux un enjeu scientifique et sociétal majeur, nous allons d’ailleurs organiser un hackathon sur le sujet en mai.
Sur le fond, et comme je le dis souvent aux étudiants, il me semble que le TAL doit rester une discipline qui “permette aux humains de manipuler le langage par d’autres moyens et à une autre échelle”. Il est essentiel à mes yeux que les outils, ressources et technologies que nous développons restent au service du plus grand nombre !

Merci infiniment à Damien Nouvel d’avoir accepté de répondre à cette interview hyper enrichissante !

J’espère que vous comprenez mieux l’intérêt du TAL maintenant, et pourquoi je vous rabâche avec cela dans le monde du SEO 😉 C’est complétement lié !

Bon courage à tous,

Véronique Duong – Directrice associée chez Rankwell et consultante SEO certifiée CESEO !

Mots-clés référencement : Statistiques TF-IDF #SEO

3 octobre 2013

J'ai testé ..., Réferencement naturel (SEO), Traitement automatique des langues, Web

4 Commentaires

Bonjour tout le monde !

Ok, mon article commence par un titre relevant du jargon du traitement automatique des langues et de la fouille de textes. Vous devez vous dire « euh ok, et c’est quoi le TF-IDF ? », « qu’est ce que ça à voir avec le SEO ? » … Eh bien, je vais essayer de définir le TF-IDF en deux lignes avec des termes vulgarisés pour que vous comprenez :

Le TF-IDF (qui est le sigle de Term Frequency-Inverse Document Frequency) est une mesure statistique qui permet d’évaluer l’importance d’un terme contenu dans un document ou dans un ensemble de textes. Il varie en fonction de la fréquence d’apparition du mot-clé dans le corpus.

Des variantes de la formule originale sont souvent utilisées dans des moteurs de recherche pour apprécier la pertinence d’un document en fonction des critères de recherche de l’utilisateur. (Source : Wikipédia)

Voici la formule de calcul (ça semble assez abstrait … je sais) :

En gros, plus un mot-clé est présent dans un document ou dans un corpus ( = base de données de textes), plus le TF-IDF sera élevé pour ce mot. Baidu utiliserait cette technologie pour faire la correspondance entre les mots-clés d’une requête d’un internaute et les documents dans sa base (dans son moteur). Ainsi, il afficherait les pages HTML qui auraient le plus de pertinence par rapport aux mots-clés de la recherche. (Source de l’article TF-IDF框架与SEO衍生)

Apparemment, Google et Yahoo! utiliseraient aussi la formule du TF-IDF pour afficher les résultats de recherche selon les requêtes des utilisateurs. Donc, il ne faudrait plus se contenter d’optimiser certaines parties (ex : juste les méta tags) d’une page, mais vraiment toute la page web (des méta tags au contenu textuel) en pensant à la notion de la densité de mots-clés.

Personnellement, j’utilise un script Perl pour faire le calcul du TF-IDF.

Voici une exemple plus concret de calcul de TF-IDF pour plus de clarté (tiré directement de Wikipédia) :

Bon courage à tous,

Véronique Duong –

Analyse de la fréquence des mots-clés (Outil SEO)

16 Mai 2013

J'ai testé ..., Réferencement naturel (SEO), Traitement automatique des langues, Veilles, Web

1 commentaire

Bonjour à tous !

Je vous ai préparé un petit article sur le calcul automatique de la fréquence d’une occurence dans un corpus de textes ou … tout simplement d’une page web pour effectuer une analyse des mots-clés.

L’outil de calcul, que j’ai implémenté, ressemble quelque peu au Keyword Analysis Tool

Ce petit robot a été scripté en Perl. Il permet de découper un corpus de textes en mot et d’indiquer la fréquence (statistiques textuelles) de chaque forme présente dans le contenu.

Mon outil met environ 1 à 2 secondes pour découper le texte. Très rapide, non ? 🙂

Voici à quoi ressemble le script:

Après avoir passé ce script sur un corpus de textes, on obtient des données statistiques, montrant le nombre de fois qu’une forme apparaît, comme celles-ci:

Si vous souhaitez en savoir plus, je vous invite à vous rendre sur le site AUTOVEILLE pour avoir plus d’informations. Sinon, posez-moi des questions via autoveille@gmail.com

Bon courage !

Véronique Duong –

Ecrire automatiquement la balise SEO title

4 Mai 2013

J'ai testé ..., Réferencement naturel (SEO), Traitement automatique des langues, Veilles, Web

1 commentaire

Bonjour à tous 🙂

Un petit article pour vous montrer comment écrire automatiquement la balise SEO title avec du Perl ! Cette technique peut vous sembler un peu black hat, mais si on utilise bien l’automatisation, il n’y a rien de bien méchant, voire cela pourrait être un petit coup de pouce si jamais on a beaucoup de pages à travailler. Comme vous l’auriez constater, j’adore coupler SEO et traitement automatique des langues quand il est possible (bien sûr !).

Voici un petit exemple (que j’ai repris de ma page AUTOVEILLE des outils SEO) pour automatiser l’écriture de la balise title:

On constate que les balises title en sortie sont bien structurées et propres, et elles ont été écrites en quelques secondes ! Si vous souhaitez d’autres exemples, faites moi signe ! 🙂

L’écriture des méta descriptions peut également être automatisée.

N’hésitez pas à vous rendre sur le site officiel d’AUTOVEILLE de temps en temps pour vous tenir au courant des nouveaux services que je mets en place.

Bon courage !

Véronique Duong –

—📈 AUTOVEILLE par Véronique DUONG | Expert SEO international | Référencement multilingue

archive

Archives de Tag: TAL

Les mesures de statistiques textuelles TF-IDF, Rappel, Précision vues par des experts en TAL #Interview n°1 : Damien Nouvel

Mots-clés référencement : Statistiques TF-IDF #SEO

Analyse de la fréquence des mots-clés (Outil SEO)

Ecrire automatiquement la balise SEO title

Partagez sur:

Partagez sur:

Partagez sur:

Partagez sur: