archive

Archives de Tag: statistiques textuelles

Bonjour à tous !

Je vous ai préparé un petit article sur le calcul automatique de la fréquence d’une occurence dans un corpus de textes ou … tout simplement d’une page web pour effectuer une analyse des mots-clés.

L’outil de calcul, que j’ai implémenté, ressemble quelque peu au Keyword Analysis Tool

Ce petit robot a été scripté en Perl. Il permet de découper un corpus de textes en mot et d’indiquer la fréquence (statistiques textuelles) de chaque forme présente dans le contenu.

Mon outil met environ 1 à 2 secondes pour découper le texte. Très rapide, non ? 🙂

Voici à quoi ressemble le script:

Outil d'analyse de mots-clés

Après avoir passé ce script sur un corpus de textes, on obtient des données statistiques, montrant le nombre de fois qu’une forme apparaît, comme celles-ci:

Fréquence de mots-clés et statistiques textuellesSi vous souhaitez en savoir plus, je vous invite à vous rendre sur le site AUTOVEILLE pour avoir plus d’informations. Sinon, posez-moi des questions via autoveille@gmail.com

Bon courage !

Véronique Duong –

Bonsoir !

J’ai décidé de poster un petit article sur Lexico 3, un outil de lexicométrie / textométrie fournissant des statistiques textuelles développé par l’Université Sorbonne Nouvelle.

Il y a deux ans (pratiquement jour pour jour !), je me suis servie de cet outil pour faire des analyses sémantiques (style « journalistique » et style « conversations en ligne » sur les forums, blogs, etc.), et cela avait bien marché. Les spécificités positives, négatives, statistiques textuelles sont précises, et permettent de faire de bonnes analyses.

Par exemple, pour le style « conversations en ligne », j’ai travaillé sur les contenus textuels du site communautaire Samestory. Il fallait catégoriser les verbatims en positif / neutre / négatif à l’aide de Lexico 3 (concordances / collocations / coocurrences). Vous remarquerez que les textes sont effectivement classés par tonalité dans le site:

tonalité discours samestory

Lexico 3 nous offre la possibilité d’avoir un outil de concordance pour identifier tous les contextes où chaque mot-clé qu’on aura déterminé se trouve. Un mot positif dans un contexte négatif a une tonalité négative, et vice-versa. Il faut également faire attention aux textes avec un ton ironique, humoristique, les sous-entendus, etc.

C’est pour cela que nous avons besoin d’analyser les contextes.

outil concordance lexico3

De plus, pour mesurer la présence d’un mot dans les contenus textuels, on peut utiliser les statistiques textuelles, et en former des graphes ou des histogrammes. La version histogramme est plus claire à mon goût car on voit tout de suite si un mot est plus présent dans une thématique par rapport à une autre, ou selon votre catégorisation:

histogramme Lexico 3

 

En tout cas, cet outil est utile pour faire de l’analyse sémantique reposant sur des statistiques textuelles. Je l’utilise également pour faire de l’analyse d’opinions.

La prise en main peut être un peu technique au début, mais on s’habitue très vite (si on l’utilise régulièrement). Lexico 3 prend un certain format de balises dans le corpus.txt à mettre en entrée.

Si vous voulez en savoir plus, je peux vous expliquer plus en détails avec les études que j’ai faites.

Bon courage 🙂

Véronique Duong

 

 

%d blogueurs aiment cette page :