Mots-clés référencement : Statistiques TF-IDF #SEO
Bonjour tout le monde !
Ok, mon article commence par un titre relevant du jargon du traitement automatique des langues et de la fouille de textes. Vous devez vous dire « euh ok, et c’est quoi le TF-IDF ? », « qu’est ce que ça à voir avec le SEO ? » … Eh bien, je vais essayer de définir le TF-IDF en deux lignes avec des termes vulgarisés pour que vous comprenez :
Le TF-IDF (qui est le sigle de Term Frequency-Inverse Document Frequency) est une mesure statistique qui permet d’évaluer l’importance d’un terme contenu dans un document ou dans un ensemble de textes. Il varie en fonction de la fréquence d’apparition du mot-clé dans le corpus.
Des variantes de la formule originale sont souvent utilisées dans des moteurs de recherche pour apprécier la pertinence d’un document en fonction des critères de recherche de l’utilisateur. (Source : Wikipédia)
Voici la formule de calcul (ça semble assez abstrait … je sais) :
En gros, plus un mot-clé est présent dans un document ou dans un corpus ( = base de données de textes), plus le TF-IDF sera élevé pour ce mot. Baidu utiliserait cette technologie pour faire la correspondance entre les mots-clés d’une requête d’un internaute et les documents dans sa base (dans son moteur). Ainsi, il afficherait les pages HTML qui auraient le plus de pertinence par rapport aux mots-clés de la recherche. (Source de l’article TF-IDF框架与SEO衍生)
Apparemment, Google et Yahoo! utiliseraient aussi la formule du TF-IDF pour afficher les résultats de recherche selon les requêtes des utilisateurs. Donc, il ne faudrait plus se contenter d’optimiser certaines parties (ex : juste les méta tags) d’une page, mais vraiment toute la page web (des méta tags au contenu textuel) en pensant à la notion de la densité de mots-clés.
Personnellement, j’utilise un script Perl pour faire le calcul du TF-IDF.
Voici une exemple plus concret de calcul de TF-IDF pour plus de clarté (tiré directement de Wikipédia) :
Bon courage à tous,
Véronique Duong –
Pingback: [Podcast] Analyse sémantique SEO avec des outils de lexicométrie (IA) | 📈 AUTOVEILLE par Véronique DUONG | Expert SEO international | Référencement multilingue
Pingback: Le #SEO, ce n’est pas que des mots-clés ! TF-IDF #TALN #NLP | AUTOVEILLE | Logiciel de veille
Pingback: Mots-clés référencement : ...
Pingback: Mots-clés référencement : ...