Mots-clés référencement : Statistiques TF-IDF #SEO

Bonjour tout le monde !

Ok, mon article commence par un titre relevant du jargon du traitement automatique des langues et de la fouille de textes. Vous devez vous dire « euh ok, et c’est quoi le TF-IDF ? », « qu’est ce que ça à voir avec le SEO ? » … Eh bien, je vais essayer de définir le TF-IDF en deux lignes avec des termes vulgarisés pour que vous comprenez :

Le TF-IDF (qui est le sigle de Term Frequency-Inverse Document Frequency) est une mesure statistique qui permet d’évaluer l’importance d’un terme contenu dans un document ou dans un ensemble de textes. Il varie en fonction de la fréquence d’apparition du mot-clé dans le corpus.

Des variantes de la formule originale sont souvent utilisées dans des moteurs de recherche pour apprécier la pertinence d’un document en fonction des critères de recherche de l’utilisateur. (Source : Wikipédia)

Voici la formule de calcul (ça semble assez abstrait … je sais) :

Formule calcul du TF-IDF

En gros, plus un mot-clé est présent dans un document ou dans un corpus ( = base de données de textes), plus le TF-IDF sera élevé pour ce mot. Baidu utiliserait cette technologie pour faire la correspondance entre les mots-clés d’une requête d’un internaute et les documents dans sa base (dans son moteur). Ainsi, il afficherait les pages HTML qui auraient le plus de pertinence par rapport aux mots-clés de la recherche. (Source de l’article TF-IDF框架与SEO衍生)

Nuage de mots-clés AUTOVEILLE

Apparemment, Google et Yahoo! utiliseraient aussi la formule du TF-IDF pour afficher les résultats de recherche selon les requêtes des utilisateurs. Donc, il ne faudrait plus se contenter d’optimiser certaines parties (ex : juste les méta tags) d’une page, mais vraiment toute la page web (des méta tags au contenu textuel) en pensant à la notion de la densité de mots-clés.

Personnellement, j’utilise un script Perl pour faire le calcul du TF-IDF.

Voici une exemple plus concret de calcul de TF-IDF pour plus de clarté (tiré directement de Wikipédia) :

Calcul TF-IDF pour le SEO - AUTOVEILLE

Bon courage à tous,

Véronique Duong –

Publicités
3 commentaires

Laissez un petit mot à AUTOVEILLE ;)

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :