archive

Traitement automatique des langues

Bonsoir Ă  tous !

VĂ©ronique Duong a dĂ©veloppĂ© un outil de segmentation de l’Ă©criture chinoise pendant ses recherches universitaires, et elle souhaite vous le faire dĂ©couvrir aujourd’hui.

Elle travaille beaucoup sur le chinois, et beaucoup sur les corpus de textes. Pour extraire des mots-clĂ©s pertinents depuis ses corpus, elle avait besoin d’outil de segmentation robuste et efficace. VĂ©ronique a donc dĂ©cidĂ© de le crĂ©er elle-mĂȘme.

Voici le segmenteur du chinois en action ! 🙂

1) Le script Perl qui va segmenter les corpus

Image

2) Ensuite, aprÚs le passage du script sur le corpus, ce dernier est segmenté

Image

3) Finalement, aprĂšs un autre passage d’un script de dĂ©coupage, le corpus est dĂ©coupĂ© en mots ou en expression-clĂ© avec le nombre de fois (statistiques textuelles) qu’une occurrence apparaĂźt

Image

Cet outil de segmentation du chinois est trĂšs efficace, et peut segmenter un trĂšs grand corpus. Si vous souhaitez en savoir plus, rendez-vous sur le site officiel d’AUTOVEILLE ou contactez directement autoveille@gmail.com.

Bonjour Ă  tous,

RĂ©cemment, VĂ©ronique Duong a effectuĂ© deux interventions au sein de deux universitĂ©s parisiennes trĂšs connues: l’INaLCO et la Sorbonne Nouvelle.

Elle a prĂ©sentĂ© sa profession de chef de projet de veille rĂ©glementaire, ainsi que ses outils AUTOVEILLE. Un diaporama rĂ©capitulant les outils Ă  utiliser et les mĂ©thodes Ă  employer pour la veille son disponible sur la page officielle d’AUTOVEILLE Monitoring !

N’hĂ©sitez pas Ă  le tĂ©lĂ©charger, et Ă  poser des questions Ă  VĂ©ronique Duong directement par mail ou via son Linkedin !