archive

Traitement automatique des langues

Bonjour Ă  tous !

Si vous m’avez suivi il y a moins d’une heure sur Twitter, j’ai fait part de mon nouveau dĂ©veloppement Perl: un outil pour mesurer le Page Rank d’une page web !

Le code de mon outil se compose de quelques lignes du langage Perl, et il peut prendre en paramĂštres n’importe quelle URL. Voici un rapide aperçu du code:

Outil pour mesurer le Page Rank

Robuste et hyper facile à utiliser 🙂

Voici le message que j’ai en sortie (test sur le page de Wikipedia):

>> The Page Rank of the web page is : 9

Donc le PR de WikipĂ©dia est de 9 🙂

Je vais prĂ©parer un article plus dĂ©taillĂ© dans les jours Ă  venir, mais celui-ci vous donne dĂ©jĂ  une idĂ©e de l’outil. Si vous voulez en savoir plus, laissez moi un message !

Bon courage !

Véronique Duong

Hello tout le monde !!

La nouvelle de la semaine est publiée sur mon site AUTOVEILLE :). Toutes les semaines, je poste un rapide récapitulatif des news quotidiennes sur la partie News ! de mon site. Cette technique permet en plus de le rendre encore plus dynamique.

Mais, ce nouvel article n’a pas pour but de vous parler de SEO, mais plutĂŽt de Shell et de Perl 🙂

Avec ces deux langages, on peut planifier et automatiser les processus de diverses tĂąches. Pour commencer, vous devez maĂźtriser le langage de programmation Shell (;)).

C’est surtout lui qui permet de faire tourner automatiquement les Ă©lĂ©ments. Ensuite, le Perl, c’est pour dĂ©velopper des outils pour des processus plus ou moins importants: collecte de donnĂ©es, nettoyage de grands corpus, etc. Mais on peut effectuer ces tĂąches avec le langage Shell Ă©galement. Enfin, ce n’est que mon avis.

Pour planifier les tĂąches automatiquement, il vous faut:

> Linux (je travaille essentiellement sous cet environnement)

> La Konsole

> Les scripts Perl / Shell développés à faire tourner

Puis, saisissez et utilisez le crontab pour planifier les tñches 😉

Amusez-vous bien 🙂

Véronique Duong

Bonsoir !

Il est tard, mais travailler le SEO et coder en Perl, ça peut se faire Ă  n’importe quel moment pour moi (haha). Ce soir, j’ai envie de partager quelques modules Perl trĂšs intĂ©ressants appliquĂ©s au SEO.

Le Perl est un langage de programmation informatique inventĂ© par Larry Wall en 1987 qui reprend des fonctions du langage C et des Ă©lĂ©ments de scripts Shell. Personnellement, je programme sous Ubuntu ou Kubuntu (environnements Linux), et je teste, je me sers des modules que je trouve sur CPAN (The Comprehensive Perl Archive Network).Je « m’amuse » Ă  dĂ©couvrir les outils proposĂ©s, et je les essaye, les customize, etc.

Certains modules peuvent ĂȘtre servis pour le SEO, comme le crawl des pages d’un site web, l’extraction de certaines URL, ainsi de suite. Voici quelques modules que j’aime beaucoup utililser:

1) WWW::Mechanize (extraction puissante des URL d’un site)

2) WWW::Google::PageRank (trouve les PR des sites)

3) LWP::UserAgent (crawl les pages d’un site web)

Etc.

Je me sers Ă©galement de Perl et du Shell pour travailler les ReGex lors de projets d’URL rewriting. Cela peut ĂȘtre trĂšs pratique quand on a beaucoup d’URL Ă  réécrire.

Pour coder rapidement en Perl, j’utilise Codepad (sĂ©lectionnez Perl). Vous trouverez plus d’informations sur mes recherches et les diffĂ©rents outils Perl que j’ai dĂ©veloppĂ©s sur AUTOVEILLE.

Livre programmer en Perl

Livre programmer en Perl Source: http://www.rogerwendell.com

Le livre qui m’intĂ©resse Ă©normĂ©ment depuis un moment, c’est bien celui ci-dessous !

Perl pour les linguistes

Perl pour les linguistes

Il coĂ»te 114€ … ce qui est assez cher, mais c’est un luxe que je dois m’offrir en tant qu’ingĂ©nieure linguiste informaticienne 🙂 !

En tout cas, c’est une passion.

Bon courage !

Véronique Duong

Bonjour à tous 🙂

Saviez-vous que l’on peut envoyer des mails (mĂȘme en grande quantitĂ©) sans forcĂ©ment se connecter Ă  sa boĂźte mail ? C’est tout Ă  fait possible avec l’outil emailing automatique que j’ai dĂ©veloppĂ© il y a presqu’un petit mois.

Mon logiciel de mailing automatique permet Ă©galement d’attacher des piĂšces jointes trĂšs facilement, et Ă©galement sans limite de quantitĂ©.

ATTENTION, mon logiciel d’emailing ne doit pas ĂȘtre utiliser pour faire du spam.

logiciel emailing automatique AUTOVEILLE

Si vous souhaitez le tester, Ă©crivez-moi, et je vous rĂ©pondrai par mail … sans boĂźte mail ! 😉

A bientĂŽt !

Véronique Duong

Bonsoir !

J’ai dĂ©cidĂ© de poster un petit article sur Lexico 3, un outil de lexicomĂ©trie / textomĂ©trie fournissant des statistiques textuelles dĂ©veloppĂ© par l’UniversitĂ© Sorbonne Nouvelle.

Il y a deux ans (pratiquement jour pour jour !), je me suis servie de cet outil pour faire des analyses sĂ©mantiques (style « journalistique » et style « conversations en ligne » sur les forums, blogs, etc.), et cela avait bien marchĂ©. Les spĂ©cificitĂ©s positives, nĂ©gatives, statistiques textuelles sont prĂ©cises, et permettent de faire de bonnes analyses.

Par exemple, pour le style « conversations en ligne », j’ai travaillĂ© sur les contenus textuels du site communautaire Samestory. Il fallait catĂ©goriser les verbatims en positif / neutre / nĂ©gatif Ă  l’aide de Lexico 3 (concordances / collocations / coocurrences). Vous remarquerez que les textes sont effectivement classĂ©s par tonalitĂ© dans le site:

tonalité discours samestory

Lexico 3 nous offre la possibilitĂ© d’avoir un outil de concordance pour identifier tous les contextes oĂč chaque mot-clĂ© qu’on aura dĂ©terminĂ© se trouve. Un mot positif dans un contexte nĂ©gatif a une tonalitĂ© nĂ©gative, et vice-versa. Il faut Ă©galement faire attention aux textes avec un ton ironique, humoristique, les sous-entendus, etc.

C’est pour cela que nous avons besoin d’analyser les contextes.

outil concordance lexico3

De plus, pour mesurer la prĂ©sence d’un mot dans les contenus textuels, on peut utiliser les statistiques textuelles, et en former des graphes ou des histogrammes. La version histogramme est plus claire Ă  mon goĂ»t car on voit tout de suite si un mot est plus prĂ©sent dans une thĂ©matique par rapport Ă  une autre, ou selon votre catĂ©gorisation:

histogramme Lexico 3

 

En tout cas, cet outil est utile pour faire de l’analyse sĂ©mantique reposant sur des statistiques textuelles. Je l’utilise Ă©galement pour faire de l’analyse d’opinions.

La prise en main peut ĂȘtre un peu technique au dĂ©but, mais on s’habitue trĂšs vite (si on l’utilise rĂ©guliĂšrement). Lexico 3 prend un certain format de balises dans le corpus.txt Ă  mettre en entrĂ©e.

Si vous voulez en savoir plus, je peux vous expliquer plus en dĂ©tails avec les Ă©tudes que j’ai faites.

Bon courage 🙂

Véronique Duong

 

 

Bonjour Ă  tous !

Si vous me suivez sur Twitter, vous devriez déjà avoir vu passé un petit tweet sur cette nouvelle: je suis en train de développer deux outils >> un pour trouver les pages NON indexées par Google, et un autre pour catégoriser automatiquement en trois grandes catégories (positif / neutre / négatif) des contenus extraits depuis les réseaux et les médias sociaux.

Pour cet article, il est question de ce deuxiĂšme outil: le catĂ©goriseur automatique en positif, neutre et nĂ©gatif. Evidemment, je le disais dans mes posts prĂ©cĂ©dents, ce catĂ©goriseur ne pourra en AUCUN cas remplacer une analyse humaine des contenus qui devra ĂȘtre effecutĂ©e ensuite. Il permettra de faire un bon tri parmi l’ensemble des contenus collectĂ©s automatiquement avec AUTOVEILLE (par exemple).

Pour le moment, mon outil est composĂ© de 2 Ă©lĂ©ments indispensables: le catĂ©goriseur, le fichier d’entrĂ©e avec les verbatims. Trois fichiers (positif / neutre / nĂ©gatif) sont ensuite automatiquement gĂ©nĂ©rĂ©s par l’outil de catĂ©gorisation.

Voici dĂ©jĂ  un petit exemple gĂ©nĂ©rĂ© automatiquement pour le fichier « positif »:

Outil analyse Opinion Mining

Son développement est toujours en cours. Des nouveautés à venir trÚs bientÎt !

Bon courage

Véronique Duong

Hello tout le monde,

Je vais crĂ©er une catĂ©gorie « J’ai testĂ© … » pour ce blog. Et le premier outil en liste est ERDIL CRM Analytics. Cet outil permet de faire une analyse sĂ©mantique automatiquement. Voici le test en image:

Image

Humainement, il m’a fallu 49 secondes pour dĂ©terminer la tonalitĂ© et les concepts du verbatim. L’outil a mis 0.03 secondes. Je pense que pour ce test en ligne, il y a dĂ©jĂ  un grand corpus de verbatims tout prĂȘt et annotĂ© avec les tonalitĂ©s et les concepts.

Toutefois, je trouve que l’outil peut ĂȘtre pas mal pour faire une premiĂšre catĂ©gorisation des contenus collectĂ©s sur le web. Mais, il faut toujours une analyse humaine pour mieux dĂ©finir les tons, les sens, etc.

Un outil comme celui-ci pourrait ĂȘtre tout Ă  fait dĂ©velopper par un(e) ingĂ©nieur(e) linguiste :p car c’est notre coeur de mĂ©tier (traitement automatique des langues).

Bon courage

Véronique Duong

Hello tout le monde !

Je fais beaucoup de veilles, de SEO, mais Ă©galement des Ă©tudes et des analyses d’e-rĂ©putation !

Automatiser l’analyse des tonalitĂ©s dans les verbatims = pratiquement impossible pour le moment. Avec l’automatisation, on peut catĂ©goriser les contenus en deux grands thĂšmes comme « positif » / « nĂ©gatif », et encore … car un poste avec pleins de termes Ă  tonalitĂ© positif peut ĂȘtre Ă©crit avec un ton ironique et moqueur, et vice versa. Vous voyez ce que je veux dire.

De ce fait, pour une analyse sérieuse des opinions, il faut une analyse humaine.

Avec AUTOVEILLE monitoring, je constitue mon corpus de verbatims en collectant automatiquement ces derniers via les blogs, forums, Twitter, Facebook, etc. Puis, je trie ces contenus avec mon moteur de recherche interne pour extraire les meilleurs, et je les analyse de façon humaine pour les catégoriser en positif / neutre / négatif.

Faites attention aux agences qui vous disent qu’ils ont des outils pour faire l’analyse. Ils ont des outils pour collecter, mais pour analyser et catĂ©goriser, ça doit rester le travail des humains, et non des robots :).

opinion-mining-ereputation

Surveillez votre rĂ©putation sur le web ! 😉

Véronique

Bonjour Ă  tous !

RĂ©cemment, j’ai fait une intervention Ă  la Sorbonne Nouvelle lors de la JournĂ©e sur les mĂ©tiers du Traitement Automatique des Langues, et j’ai parlĂ© de la veille, et d’AUTOVEILLE, entitĂ© que j’ai créée depuis 2011 (logiciels automatiques de veille, d’emailings, de traduction, etc.).

Une journée riche en échanges et en apprentissage.

Ci-dessous, une petite photo prise par l’Ă©quipe AFTAL que je remercie beaucoup une fois de plus pour m’avoir invitĂ©e Ă  intervenir Ă  cette journĂ©e !

Véronique Duong, intervention à la Sorbonne Nouvelle le 30 mars 2013

Diaporama sur le domaine de la veille disponible ici: Travailler dans le domaine de la veille

Bon courage Ă  tous !

Véronique Duong

Hello tout le monde !

Je (VĂ©ronique) vais vous parler de XML et XSD … non, ne fuyez pas, ce n’est pas si terrible que ça la programmation ;). VoilĂ , pour vous donner un contexte, je travaille dans le domaine du rĂ©fĂ©rencement naturel, et les redirections 301 des URL ça ne manque pas ;).

Donc, pour faire cela efficacement (surtout pour ne pas se perdre dans les nombreuses URL Ă  traiter), on a mis en place un systĂšme de mapping avec du Excel, du XML et du XSD !

Excel, tout le monde connait à peu prÚs, donc je ne vais pas le présenter :p

Par contre, qu’est ce que le XML ? « XML » est le sigle pour « Extensible Markup Language« .

Le XML est un langage informatique de balisage gĂ©nĂ©rique qui reprend les grandes lignes du SGML. Comme le HTML, elle s’Ă©crit avec des < >, mais les noms des balises peuvent ĂȘtre spĂ©cifiĂ©s par le dĂ©veloppeur ! 🙂

VoilĂ  un des XML que j’ai crĂ©e, c’est le sitemap d’AUTOVEILLE

Image

Et pour gĂ©nĂ©rer un fichier XML Ă  partir d’un fichier Excel avec la BONNE structure (c’est Ă  dire qu’il ne faut pas simplement transformer le fichier Excel en XML avec un « Enregistrer sous Fichier XML »), il existe le XSD ou le XML Schema :).

Qu’est-ce que le XSD ou XML Schema ? C’est un langage (assez complexe) qui permet de dĂ©finir la structure et le type de contenu du futur document du XML.

Un petit exemple en image serait plus parlant:

Image

XML généré à partir de ce XSD:

Image

La bonne maĂźtrise du XSD peut ĂȘtre un vrai atout et un vrai gain de temps dans la gĂ©nĂ©ration de documents structurĂ©s. AprĂšs presque 2 ans sans avoir touchĂ© vraiment au XML, j’ai « rĂ©ussi » Ă  dĂ©velopper un XSD correct :D.

Bon courage tout le monde ! 😉

A la prochaine !

VD