archive

Traitement automatique des langues

Bonjour à tous !

Si vous m’avez suivi il y a moins d’une heure sur Twitter, j’ai fait part de mon nouveau développement Perl: un outil pour mesurer le Page Rank d’une page web !

Le code de mon outil se compose de quelques lignes du langage Perl, et il peut prendre en paramètres n’importe quelle URL. Voici un rapide aperçu du code:

Outil pour mesurer le Page Rank

Robuste et hyper facile à utiliser 🙂

Voici le message que j’ai en sortie (test sur le page de Wikipedia):

>> The Page Rank of the web page is : 9

Donc le PR de Wikipédia est de 9 🙂

Je vais préparer un article plus détaillé dans les jours à venir, mais celui-ci vous donne déjà une idée de l’outil. Si vous voulez en savoir plus, laissez moi un message !

Bon courage !

Véronique Duong

Hello tout le monde !!

La nouvelle de la semaine est publiée sur mon site AUTOVEILLE :). Toutes les semaines, je poste un rapide récapitulatif des news quotidiennes sur la partie News ! de mon site. Cette technique permet en plus de le rendre encore plus dynamique.

Mais, ce nouvel article n’a pas pour but de vous parler de SEO, mais plutôt de Shell et de Perl 🙂

Avec ces deux langages, on peut planifier et automatiser les processus de diverses tâches. Pour commencer, vous devez maîtriser le langage de programmation Shell (;)).

C’est surtout lui qui permet de faire tourner automatiquement les éléments. Ensuite, le Perl, c’est pour développer des outils pour des processus plus ou moins importants: collecte de données, nettoyage de grands corpus, etc. Mais on peut effectuer ces tâches avec le langage Shell également. Enfin, ce n’est que mon avis.

Pour planifier les tâches automatiquement, il vous faut:

> Linux (je travaille essentiellement sous cet environnement)

> La Konsole

> Les scripts Perl / Shell développés à faire tourner

Puis, saisissez et utilisez le crontab pour planifier les tâches 😉

Amusez-vous bien 🙂

Véronique Duong

Bonsoir !

Il est tard, mais travailler le SEO et coder en Perl, ça peut se faire à n’importe quel moment pour moi (haha). Ce soir, j’ai envie de partager quelques modules Perl très intéressants appliqués au SEO.

Le Perl est un langage de programmation informatique inventé par Larry Wall en 1987 qui reprend des fonctions du langage C et des éléments de scripts Shell. Personnellement, je programme sous Ubuntu ou Kubuntu (environnements Linux), et je teste, je me sers des modules que je trouve sur CPAN (The Comprehensive Perl Archive Network).Je « m’amuse » à découvrir les outils proposés, et je les essaye, les customize, etc.

Certains modules peuvent être servis pour le SEO, comme le crawl des pages d’un site web, l’extraction de certaines URL, ainsi de suite. Voici quelques modules que j’aime beaucoup utililser:

1) WWW::Mechanize (extraction puissante des URL d’un site)

2) WWW::Google::PageRank (trouve les PR des sites)

3) LWP::UserAgent (crawl les pages d’un site web)

Etc.

Je me sers également de Perl et du Shell pour travailler les ReGex lors de projets d’URL rewriting. Cela peut être très pratique quand on a beaucoup d’URL à réécrire.

Pour coder rapidement en Perl, j’utilise Codepad (sélectionnez Perl). Vous trouverez plus d’informations sur mes recherches et les différents outils Perl que j’ai développés sur AUTOVEILLE.

Livre programmer en Perl

Livre programmer en Perl Source: http://www.rogerwendell.com

Le livre qui m’intéresse énormément depuis un moment, c’est bien celui ci-dessous !

Perl pour les linguistes

Perl pour les linguistes

Il coûte 114€ … ce qui est assez cher, mais c’est un luxe que je dois m’offrir en tant qu’ingénieure linguiste informaticienne 🙂 !

En tout cas, c’est une passion.

Bon courage !

Véronique Duong

Bonjour à tous 🙂

Saviez-vous que l’on peut envoyer des mails (même en grande quantité) sans forcément se connecter à sa boîte mail ? C’est tout à fait possible avec l’outil emailing automatique que j’ai développé il y a presqu’un petit mois.

Mon logiciel de mailing automatique permet également d’attacher des pièces jointes très facilement, et également sans limite de quantité.

ATTENTION, mon logiciel d’emailing ne doit pas être utiliser pour faire du spam.

logiciel emailing automatique AUTOVEILLE

Si vous souhaitez le tester, écrivez-moi, et je vous répondrai par mail … sans boîte mail ! 😉

A bientôt !

Véronique Duong

Bonsoir !

J’ai décidé de poster un petit article sur Lexico 3, un outil de lexicométrie / textométrie fournissant des statistiques textuelles développé par l’Université Sorbonne Nouvelle.

Il y a deux ans (pratiquement jour pour jour !), je me suis servie de cet outil pour faire des analyses sémantiques (style « journalistique » et style « conversations en ligne » sur les forums, blogs, etc.), et cela avait bien marché. Les spécificités positives, négatives, statistiques textuelles sont précises, et permettent de faire de bonnes analyses.

Par exemple, pour le style « conversations en ligne », j’ai travaillé sur les contenus textuels du site communautaire Samestory. Il fallait catégoriser les verbatims en positif / neutre / négatif à l’aide de Lexico 3 (concordances / collocations / coocurrences). Vous remarquerez que les textes sont effectivement classés par tonalité dans le site:

tonalité discours samestory

Lexico 3 nous offre la possibilité d’avoir un outil de concordance pour identifier tous les contextes où chaque mot-clé qu’on aura déterminé se trouve. Un mot positif dans un contexte négatif a une tonalité négative, et vice-versa. Il faut également faire attention aux textes avec un ton ironique, humoristique, les sous-entendus, etc.

C’est pour cela que nous avons besoin d’analyser les contextes.

outil concordance lexico3

De plus, pour mesurer la présence d’un mot dans les contenus textuels, on peut utiliser les statistiques textuelles, et en former des graphes ou des histogrammes. La version histogramme est plus claire à mon goût car on voit tout de suite si un mot est plus présent dans une thématique par rapport à une autre, ou selon votre catégorisation:

histogramme Lexico 3

 

En tout cas, cet outil est utile pour faire de l’analyse sémantique reposant sur des statistiques textuelles. Je l’utilise également pour faire de l’analyse d’opinions.

La prise en main peut être un peu technique au début, mais on s’habitue très vite (si on l’utilise régulièrement). Lexico 3 prend un certain format de balises dans le corpus.txt à mettre en entrée.

Si vous voulez en savoir plus, je peux vous expliquer plus en détails avec les études que j’ai faites.

Bon courage 🙂

Véronique Duong

 

 

Bonjour à tous !

Si vous me suivez sur Twitter, vous devriez déjà avoir vu passé un petit tweet sur cette nouvelle: je suis en train de développer deux outils >> un pour trouver les pages NON indexées par Google, et un autre pour catégoriser automatiquement en trois grandes catégories (positif / neutre / négatif) des contenus extraits depuis les réseaux et les médias sociaux.

Pour cet article, il est question de ce deuxième outil: le catégoriseur automatique en positif, neutre et négatif. Evidemment, je le disais dans mes posts précédents, ce catégoriseur ne pourra en AUCUN cas remplacer une analyse humaine des contenus qui devra être effecutée ensuite. Il permettra de faire un bon tri parmi l’ensemble des contenus collectés automatiquement avec AUTOVEILLE (par exemple).

Pour le moment, mon outil est composé de 2 éléments indispensables: le catégoriseur, le fichier d’entrée avec les verbatims. Trois fichiers (positif / neutre / négatif) sont ensuite automatiquement générés par l’outil de catégorisation.

Voici déjà un petit exemple généré automatiquement pour le fichier « positif »:

Outil analyse Opinion Mining

Son développement est toujours en cours. Des nouveautés à venir très bientôt !

Bon courage

Véronique Duong

Hello tout le monde,

Je vais créer une catégorie « J’ai testé … » pour ce blog. Et le premier outil en liste est ERDIL CRM Analytics. Cet outil permet de faire une analyse sémantique automatiquement. Voici le test en image:

Image

Humainement, il m’a fallu 49 secondes pour déterminer la tonalité et les concepts du verbatim. L’outil a mis 0.03 secondes. Je pense que pour ce test en ligne, il y a déjà un grand corpus de verbatims tout prêt et annoté avec les tonalités et les concepts.

Toutefois, je trouve que l’outil peut être pas mal pour faire une première catégorisation des contenus collectés sur le web. Mais, il faut toujours une analyse humaine pour mieux définir les tons, les sens, etc.

Un outil comme celui-ci pourrait être tout à fait développer par un(e) ingénieur(e) linguiste :p car c’est notre coeur de métier (traitement automatique des langues).

Bon courage

Véronique Duong

Hello tout le monde !

Je fais beaucoup de veilles, de SEO, mais également des études et des analyses d’e-réputation !

Automatiser l’analyse des tonalités dans les verbatims = pratiquement impossible pour le moment. Avec l’automatisation, on peut catégoriser les contenus en deux grands thèmes comme « positif » / « négatif », et encore … car un poste avec pleins de termes à tonalité positif peut être écrit avec un ton ironique et moqueur, et vice versa. Vous voyez ce que je veux dire.

De ce fait, pour une analyse sérieuse des opinions, il faut une analyse humaine.

Avec AUTOVEILLE monitoring, je constitue mon corpus de verbatims en collectant automatiquement ces derniers via les blogs, forums, Twitter, Facebook, etc. Puis, je trie ces contenus avec mon moteur de recherche interne pour extraire les meilleurs, et je les analyse de façon humaine pour les catégoriser en positif / neutre / négatif.

Faites attention aux agences qui vous disent qu’ils ont des outils pour faire l’analyse. Ils ont des outils pour collecter, mais pour analyser et catégoriser, ça doit rester le travail des humains, et non des robots :).

opinion-mining-ereputation

Surveillez votre réputation sur le web ! 😉

Véronique

Bonjour à tous !

Récemment, j’ai fait une intervention à la Sorbonne Nouvelle lors de la Journée sur les métiers du Traitement Automatique des Langues, et j’ai parlé de la veille, et d’AUTOVEILLE, entité que j’ai créée depuis 2011 (logiciels automatiques de veille, d’emailings, de traduction, etc.).

Une journée riche en échanges et en apprentissage.

Ci-dessous, une petite photo prise par l’équipe AFTAL que je remercie beaucoup une fois de plus pour m’avoir invitée à intervenir à cette journée !

Véronique Duong, intervention à la Sorbonne Nouvelle le 30 mars 2013

Diaporama sur le domaine de la veille disponible ici: Travailler dans le domaine de la veille

Bon courage à tous !

Véronique Duong

Hello tout le monde !

Je (Véronique) vais vous parler de XML et XSD … non, ne fuyez pas, ce n’est pas si terrible que ça la programmation ;). Voilà, pour vous donner un contexte, je travaille dans le domaine du référencement naturel, et les redirections 301 des URL ça ne manque pas ;).

Donc, pour faire cela efficacement (surtout pour ne pas se perdre dans les nombreuses URL à traiter), on a mis en place un système de mapping avec du Excel, du XML et du XSD !

Excel, tout le monde connait à peu près, donc je ne vais pas le présenter :p

Par contre, qu’est ce que le XML ? « XML » est le sigle pour « Extensible Markup Language« .

Le XML est un langage informatique de balisage générique qui reprend les grandes lignes du SGML. Comme le HTML, elle s’écrit avec des < >, mais les noms des balises peuvent être spécifiés par le développeur ! 🙂

Voilà un des XML que j’ai crée, c’est le sitemap d’AUTOVEILLE

Image

Et pour générer un fichier XML à partir d’un fichier Excel avec la BONNE structure (c’est à dire qu’il ne faut pas simplement transformer le fichier Excel en XML avec un « Enregistrer sous Fichier XML »), il existe le XSD ou le XML Schema :).

Qu’est-ce que le XSD ou XML Schema ? C’est un langage (assez complexe) qui permet de définir la structure et le type de contenu du futur document du XML.

Un petit exemple en image serait plus parlant:

Image

XML généré à partir de ce XSD:

Image

La bonne maîtrise du XSD peut être un vrai atout et un vrai gain de temps dans la génération de documents structurés. Après presque 2 ans sans avoir touché vraiment au XML, j’ai « réussi » à développer un XSD correct :D.

Bon courage tout le monde ! 😉

A la prochaine !

VD