archive

Archives de Tag: statistiques textuelles

Bonjour Ă  tous !

Je vous ai prĂ©parĂ© un petit article sur le calcul automatique de la frĂ©quence d’une occurence dans un corpus de textes ou … tout simplement d’une page web pour effectuer une analyse des mots-clĂ©s.

L’outil de calcul, que j’ai implĂ©mentĂ©, ressemble quelque peu au Keyword Analysis Tool

Ce petit robot a Ă©tĂ© scriptĂ© en Perl. Il permet de dĂ©couper un corpus de textes en mot et d’indiquer la frĂ©quence (statistiques textuelles) de chaque forme prĂ©sente dans le contenu.

Mon outil met environ 1 Ă  2 secondes pour dĂ©couper le texte. TrĂšs rapide, non ? 🙂

Voici Ă  quoi ressemble le script:

Outil d'analyse de mots-clés

AprĂšs avoir passĂ© ce script sur un corpus de textes, on obtient des donnĂ©es statistiques, montrant le nombre de fois qu’une forme apparaĂźt, comme celles-ci:

FrĂ©quence de mots-clĂ©s et statistiques textuellesSi vous souhaitez en savoir plus, je vous invite Ă  vous rendre sur le site AUTOVEILLE pour avoir plus d’informations. Sinon, posez-moi des questions via autoveille@gmail.com

Bon courage !

VĂ©ronique Duong –

Publicité

Bonsoir !

J’ai dĂ©cidĂ© de poster un petit article sur Lexico 3, un outil de lexicomĂ©trie / textomĂ©trie fournissant des statistiques textuelles dĂ©veloppĂ© par l’UniversitĂ© Sorbonne Nouvelle.

Il y a deux ans (pratiquement jour pour jour !), je me suis servie de cet outil pour faire des analyses sĂ©mantiques (style « journalistique » et style « conversations en ligne » sur les forums, blogs, etc.), et cela avait bien marchĂ©. Les spĂ©cificitĂ©s positives, nĂ©gatives, statistiques textuelles sont prĂ©cises, et permettent de faire de bonnes analyses.

Par exemple, pour le style « conversations en ligne », j’ai travaillĂ© sur les contenus textuels du site communautaire Samestory. Il fallait catĂ©goriser les verbatims en positif / neutre / nĂ©gatif Ă  l’aide de Lexico 3 (concordances / collocations / coocurrences). Vous remarquerez que les textes sont effectivement classĂ©s par tonalitĂ© dans le site:

tonalité discours samestory

Lexico 3 nous offre la possibilitĂ© d’avoir un outil de concordance pour identifier tous les contextes oĂč chaque mot-clĂ© qu’on aura dĂ©terminĂ© se trouve. Un mot positif dans un contexte nĂ©gatif a une tonalitĂ© nĂ©gative, et vice-versa. Il faut Ă©galement faire attention aux textes avec un ton ironique, humoristique, les sous-entendus, etc.

C’est pour cela que nous avons besoin d’analyser les contextes.

outil concordance lexico3

De plus, pour mesurer la prĂ©sence d’un mot dans les contenus textuels, on peut utiliser les statistiques textuelles, et en former des graphes ou des histogrammes. La version histogramme est plus claire Ă  mon goĂ»t car on voit tout de suite si un mot est plus prĂ©sent dans une thĂ©matique par rapport Ă  une autre, ou selon votre catĂ©gorisation:

histogramme Lexico 3

 

En tout cas, cet outil est utile pour faire de l’analyse sĂ©mantique reposant sur des statistiques textuelles. Je l’utilise Ă©galement pour faire de l’analyse d’opinions.

La prise en main peut ĂȘtre un peu technique au dĂ©but, mais on s’habitue trĂšs vite (si on l’utilise rĂ©guliĂšrement). Lexico 3 prend un certain format de balises dans le corpus.txt Ă  mettre en entrĂ©e.

Si vous voulez en savoir plus, je peux vous expliquer plus en dĂ©tails avec les Ă©tudes que j’ai faites.

Bon courage 🙂

VĂ©ronique Duong

 

 

%d blogueurs aiment cette page :