Segmenteur automatique du chinois (script Perl)

Bonsoir à tous !

Véronique Duong a développé un outil de segmentation de l’écriture chinoise pendant ses recherches universitaires, et elle souhaite vous le faire découvrir aujourd’hui.

Elle travaille beaucoup sur le chinois, et beaucoup sur les corpus de textes. Pour extraire des mots-clés pertinents depuis ses corpus, elle avait besoin d’outil de segmentation robuste et efficace. Véronique a donc décidé de le créer elle-même.

Voici le segmenteur du chinois en action ! 🙂

1) Le script Perl qui va segmenter les corpus

Image

2) Ensuite, après le passage du script sur le corpus, ce dernier est segmenté

Image

3) Finalement, après un autre passage d’un script de découpage, le corpus est découpé en mots ou en expression-clé avec le nombre de fois (statistiques textuelles) qu’une occurrence apparaît

Image

Cet outil de segmentation du chinois est très efficace, et peut segmenter un très grand corpus. Si vous souhaitez en savoir plus, rendez-vous sur le site officiel d’AUTOVEILLE ou contactez directement autoveille@gmail.com.

Advertisements

Laissez un petit mot à AUTOVEILLE ;)

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :