archive

Traitement automatique des langues

Bonjour tout le monde !

Aujourd’hui, je ne vais pas vous parler de logiciel de veille automatique ou d’outils d’automatisation. Vous pouvez tout de mĂȘme lire la news de la semaine sur mon site officiel AUTOVEILLE. A la Une, je vous parle d’interviews en cours, d’astuces SEO, et de mĂ©ta tags optimisĂ©es Ă  gogo !

NĂ©anmoins, j’ai une autre petite infographie Ă  partager avec vous (aprĂšs celle d’hier avec les 200 critĂšres SEO de Google). Je l’ai rĂ©cupĂ©rĂ© sur le site Abondance d’Olivier Andrieu (merci beaucoup au passage !). Cette jolie infographie vous prĂ©sente les principales actions SEO plus ou moins complexes Ă  faire en amont pour augmenter le trafic et la visibilitĂ© d’un site web.

 

Infographie des principales actions SEO pour la visibilité des sites web

Plus on va en profondeur, plus les actions sont complexes, et plus le trafic et la visibilitĂ© du site augmente. Faites donc attention Ă  vos balises hn (je le prĂ©cise et rĂ©pĂ©te, un h1 doit contenir du texte !! et non des images comme j’ai pu le voir T_T),  aux pages erreurs, aux liens brisĂ©s, aux balises title, aux contenus dupliquĂ©s, etc. Ces techniques et actions peuvent tout changer ! Elles sont vitales aux sites web.

Bon, je retourne sur mon crawl automatique d’URL … 😉 #SEOpassion
Bon courage ! 🙂

VĂ©ronique Duong –

Bonjour Ă  tous !

Aujourd’hui, j’ai dĂ©cidĂ© de vous prĂ©parer un article pour rĂ©sumer toutes les technologies que AUTOVEILLE Monitoring, mon outil de veille automatique peut offrir. Avec les amĂ©liorations et les changements que j’apporte souvent Ă  mes outils d’automatisation, j’estime qu’un rĂ©capitulatif est important.

Au fur et Ă  mesure que je travaille sur mes outils, je dĂ©couvre ou je dĂ©tourne certains d’entre eux pour les utiliser Ă  diffĂ©rentes fins. AUTOVEILLE Monitoring n’est plus seulement un logiciel de veille automatique, mais Ă©galement un outil pour constituer des corpus de textes, un outil de crawl, et Ă©galement un outil de scraping.

Voici plus en dĂ©tails, les descriptions de chaque technologie qu’AUTOVEILLE Monitoring peut offrir:

1) C’est … un logiciel de veille. AUTOVEILLE peut surveiller:

  • des pages web
  • des flux RSS
  • des tweets
  • des textes issus d’une base de donnĂ©es (par mot-clĂ©)

2) C’est … un outil de constitution de corpus automatique. AUTOVEILLE peut collecter:

  • des pages web
  • des flux RSS
  • les contenus textuels des sites web

3) C’est … un outil de crawl. AUTOVEILLE peut rĂ©cupĂ©rer:

  • des pages web
  • des donnĂ©es (partiellement ou en totalitĂ©) d’un site web
  • des PDF, des Word, des Excel, des images, etc.

4) C’est … un outil de scraping (SEO). AUTOVEILLE peut extraire:

  • des URL d’un site web (partiellement ou en totalitĂ©)
  • des liens internes d’une page web

Cependant, AUTOVEILLE est avant tout un service de veille automatique dont les contenus veillĂ©s seront directement envoyĂ©s aux chargĂ©s de veille. J’ai Ă©galement des demandes pour utiliser AUTOVEILLE comme outil d’extraction d’URL pour rĂ©cupĂ©rer toutes les URL d’un site.

Je rappelle Ă  l’occasion que mes outils ne sont pas Ă  vendre car ce sont des scripts Perl sans interface graphique. En revanche, AUTOVEILLE peut vous offrir un service adaptable et robuste au vu de la flexibilitĂ© des logiciels.

Logiciel veille: AUTOVEILLE et ses technologies

Bon courage !

VĂ©ronique Duong –

 

Bonjour Ă  tous !

Je reviens avec un article geek pour dĂ©buter la semaine en beautĂ© ! VoilĂ , rĂ©cemment, j’ai eu besoin de faire une extraction complĂšte d’URL d’un trĂšs trĂšs gros site web contenant plus de 5000 pages. Je sais qu’il existe pas mal d’outils (plus ou moins) gratuits sur le marchĂ© pour faire des extractions d’URL, mais aprĂšs avoir Ă©tudiĂ© nombreux d’entre eux, ils ne rĂ©pondaient pas parfaitement Ă  ce que je recherchais.

AprĂšs avoir cherchĂ© une solution pendant un bon moment, je me suis dit qu’AUTOVEILLE pourrait trĂšs bien crawler un site web tout en extrayant les URL. Parce que si j’arrive Ă  veiller des sites ou des pages avec AUTOVEILLE Monitoring en rĂ©cupĂ©rant des masses d’informations, je pourrais Ă©galement dĂ©tourner mon logiciel de veille automatique en outil de crawl de sites web.

J’ai donc tentĂ© l’essai. J’ai Ă©galement mis en place un log pour rĂ©cupĂ©rer les URL et leurs codes de statuts http.

Voici l’exemple du crawl sur mon propre site AUTOVEILLE:

1) Indication du temps que mon outil de crawl AUTOVEILLE a mis pour extraire toutes les URL du site

Outil extraction URL AUTOVEILLE

2) Indication détaillée sur une des URL de mon site (poids, code de statut http, etc.)

Outil de crawl d'URL AUTOVEILLE

3) Ensuite, si vous souhaitez n’extraire que les URL, il suffit de faire un peu de nettoyage pour obtenir un fichier propre. Dans l’exemple ci-dessous, il y a toutes les URL mĂȘme les images, le robots.txt, le CSS, etc.

Extraction des URL d'un site4) Si vous ne souhaitez que les URL avec .html ou autre extension, il suffit de recréer un filtre sur les URL extraites

Outil SEO extraction URL

En tout cas, je suis contente de ma « dĂ©couverte » qui est en fait une autre façon d’utiliser mon outil de veille automatique ! 🙂 Il marche trĂšs bien sur les petits / moyens sites. Par contre pour un trĂšs trĂšs gros site, il faut avoir un peu de patience, car il met plus de temps Ă  crawler (ce qui est normal me diriez-vous).

Facilement adaptables, mes outils peuvent ĂȘtre personnalisĂ©s pour diffĂ©rents cas.

Bon courage !

VĂ©ronique Duong –

 

Bonjour Ă  tous !

Je vous ai prĂ©parĂ© un petit article sur le calcul automatique de la frĂ©quence d’une occurence dans un corpus de textes ou … tout simplement d’une page web pour effectuer une analyse des mots-clĂ©s.

L’outil de calcul, que j’ai implĂ©mentĂ©, ressemble quelque peu au Keyword Analysis Tool

Ce petit robot a Ă©tĂ© scriptĂ© en Perl. Il permet de dĂ©couper un corpus de textes en mot et d’indiquer la frĂ©quence (statistiques textuelles) de chaque forme prĂ©sente dans le contenu.

Mon outil met environ 1 Ă  2 secondes pour dĂ©couper le texte. TrĂšs rapide, non ? 🙂

Voici Ă  quoi ressemble le script:

Outil d'analyse de mots-clés

AprĂšs avoir passĂ© ce script sur un corpus de textes, on obtient des donnĂ©es statistiques, montrant le nombre de fois qu’une forme apparaĂźt, comme celles-ci:

FrĂ©quence de mots-clĂ©s et statistiques textuellesSi vous souhaitez en savoir plus, je vous invite Ă  vous rendre sur le site AUTOVEILLE pour avoir plus d’informations. Sinon, posez-moi des questions via autoveille@gmail.com

Bon courage !

VĂ©ronique Duong –

Bonjour tout le monde !

Hier, je vous ai montrĂ© comment faire une veille automatique et une collecte sur des tweets. Aujourd’hui, je reviens avec un article sur une veille automatisĂ©e et l’extraction des commentaires dans les publications sur les mĂ©dias traditionnels ou les blogs et/ou les forums.

Les commentaires sont Ă©galement des verbatims intĂ©ressants Ă  Ă©tudier pour  l’e-rĂ©putation ou l’analyse d’opinions. En effet, c’est souvent dans ces derniers que les internautes expriment leurs pensĂ©es et leurs opinions sur un sujet.

Voici rapidement comment je fais pour collecter efficacement et rapidement des commentaires:

1) J’utilise AUTOVEILLE Monitoring et AUTOVEILLE Corpus pour faire ma collecte automatique (si vous voulez en savoir plus sur ces outils, je vous invite Ă  aller sur mon site ou Ă  m’Ă©crire).

Exemple > Extraction des commentaires ci-dessous:

commentaires Figaro

2) Mes robots récupérent les commentaires au format HTML, et je fais une extraction de ces derniers dans un autre format exploitable par la plupart des outils de traitement automatique

Exemple > Les commentaires affichés dans ma Konsole (qui nécessitent bien évidemment encore quelques nettoyages)

commentaires-figaro-2

3)  Le corpus de commentaires extraits (Ă  titre d’exemple)

Corpus et collecte de commentaires / verbatims

Chaque collecte pour crĂ©er un corpus de commentaires est Ă©tudiĂ© et personnalisĂ© parce que chaque site ne prĂ©sente pas les choses de la mĂȘme façon. Il faut donc des outils adaptables pour rapatrier un maximum de verbatims.

 

N’hĂ©sitez pas Ă  me donner vos avis, vos idĂ©es ou Ă  m’Ă©crire si vous voulez en savoir plus 🙂

Bon courage –

Véronique Duong

Bonjour Ă  tous,

Comme on me le demande souvent, j’ai dĂ©cidĂ© de faire un article pour vous montrer comment faire une veille automatique ainsi qu’une collecte automatique des tweets depuis Twitter.

Pour cela, je dĂ©veloppe un script Perl pour chaque crawl. C’est Ă  dire que j’adapte mes crawls en fonction du type d’Ă©lĂ©ments Ă  crawler. RĂ©cupĂ©rer des tweets est diffĂ©rent de rĂ©cupĂ©rer des pages web par exemple.

A partir d’une recherche de tweets par #hashtag, mot-clĂ© ou expressions clĂ©s, j’en crĂ©e un flux RSS que je passe sous AUTOVEILLE. Ensuite, mon logiciel de veille collecte les tweets au format XML, et je traite ce XML au format demandĂ© par le client.

Voici un exemple d’un tweet au format XML:

collecte automatique de tweets

Avec quelques lignes de commandes Bash (Shell), je récupÚre uniquement les liens vers mes tweets collectés:

collecte automatique de tweets

Encore un peu de nettoyage automatique pour retirer les balises link

tweets collectés

Voilà, avec cette collecte, vous pouvez sauvegarder vos précieux tweets. Pour les afficher, il suffit de les repasser au format XML ou HTML. En repassant au format HTML, on obtient des tweets dans ce format:

tweet-format-html

J’adapte chaque veille / chaque collecte au cas par cas comme vous pouvez le constater.

Bon courage !

VĂ©ronique Duong –

Bonjour tout le monde !

Voici un nouvel article pour vous prĂ©senter un autre outil de traduction automatique (aprĂšs Golgu Translate) signĂ© Baidu: Baidu Translate (Baidu Fanyi ou 癟ćșŠçż»èŻ‘). L’interface de l’outil ressemble quelque peu Ă  Google Translate: deux encadrĂ©s Ă  gauche et Ă  droite. Mais le nombre de langues pris en compte est moins nombreuses que Google Translate. Ici, avec l’outil de traduction automatique Baidu Translate, on n’a que 8 combinaisons de langues possibles:

combinaisons langues Baidu Translate

Traduction des combinaisons de langues possibles:

  • Chinois > Anglais
  • Anglais > Chinois
  • Chinois > Japonais
  • Japonais > Chinois
  • Anglais > Japonais
  • Japonais > Anglais
  • Anglais > ThaĂŻlandais
  • ThaĂŻlandais > Anglais

Comme vous pouvez le constater, il n’y a pas la langue française ! Mais peut ĂȘtre qu’elle sera prochainement disponible (?)

J’ai fait un petit test Anglais > Chinois:

Baidu Translate English / Chinese

La traduction automatique est une traduction mot Ă  mot. Pour des phrases simples composĂ©s de S + V + C, les outils automatiques peuvent donner quelque chose de cohĂ©rent, mais pour de longs textes avec des sous-entendus, je ne vous conseille pas d’utiliser des logiciels de traduction automatique, car cela ne marchera pas.

Dans un prochain article, je vous prĂ©senterai un autre outil de Baidu 🙂

Bon courage

VĂ©ronique Duong –

Bonjour Ă  tous !

Je profite de cet article pour vous donner ma routine de la veille stratĂ©gique que j’effectue quotidiennement. Chaque veilleur a sa mĂ©thode, et se dĂ©brouille selon les outils et les ressources dont il possĂšde. Chacune des mĂ©thodes peut ĂȘtre plus ou moins diffĂ©rente, mais le rĂ©sultat final devrait ĂȘtre le mĂȘme c’est Ă  dire la diffusion de l’information veillĂ©e sous forme de comptes-rendus.

TrĂšs rapidement, je vais vous dĂ©crire ma routine de veilleuse Ă  laquelle j’y tiens depuis plus de 2 ans. Je rappelle que je veille avec mon outil de veille automatique (AUTOVEILLE) mais Ă©galement plusieurs autres outils disponibles sur le marchĂ©. J’avais rĂ©digĂ© un article sur ces outils de veille, si cela vous intĂ©resse, je vous invite Ă  le lire.

Voici les étapes de mon activité:

1) TrĂšs rĂ©guliĂšrement, je regarde ce que ma collecte automatique donne comme rĂ©sultats. Je reçois Ă©galement trĂšs souvent des alertes, des tweets, et tout de suite, je trie parmi ces donnĂ©es pour ne garder que ce qui m’intĂ©resse (surtout qu’il y a une rĂ©elle infobĂ©sitĂ© sur les sujets que je veille !)

2) AprĂšs avoir triĂ© mes donnĂ©es rĂ©cupĂ©rĂ©es automatiquement, je sĂ©lectionne parmi ces derniĂšres celles que je vais traiter sous forme de comptes-rendus (en gĂ©nĂ©ral, je choisis les plus pertinentes et originales), et le reste, je le partage sur Twitter ou sur d’autres rĂ©seaux sociaux.

3) Pour sélectionner mes informations préférées à traiter, je regarde:

  • le site d’oĂč vient l’article (site pro ? site perso ? blog ? etc.)
  • la fraĂźcheur de l’article (plus c’est rĂ©cent, mieux c’est)
  • le contenu de l’article (s’il y a de la matiĂšre ou pas ?)
  • l’auteur de l’article (quelqu’un de connu ? un blogueur ? un expert ? un amateur ? etc.)
  • le niveau « d’alerte » de l’article (est-ce que c’est un article qui contient une information cruciale pour les prochains jours / mois / annĂ©es ?)

Et bien sûr le sujet traité (mais cela va de soi ;))

4) Ensuite, je commence Ă  les lire et Ă  rĂ©diger mon compte-rendu soit sur mon blog AUTOVEILLE,  soit sur mon site (dans la partie News !). Le compte-rendu ne doit pas ĂȘtre un copiĂ© / collĂ© des informations rĂ©cupĂ©rĂ©es ! En plus en termes de SEO, c’est Ă  Ă©viter absolument (… duplicate content !!). En moyenne un compte-rendu me prend de 30 min Ă  1h de lecture / rĂ©daction. Tout dĂ©pend de la technicitĂ© des informations collectĂ©es.

Le mĂ©tier de veilleur, comme je le disais, est un mĂ©tier vĂ©ritablement riche en apprentissage, en stress (la « peur » de louper des informations importantes), et en rĂ©daction (s’exprimer Ă  travers sa plume (ou plutĂŽt son clavier …), crĂ©er des textes originaux rĂ©guliĂšrement). On ne s’ennuie jamais ! 😉

Les différents types de veille: veille commerciale, veille sociétale, veille technologique, veille webmarketing, veille réglementaire

Les différents types de veille

Bon courage !

VĂ©ronique Duong –

Bonjour à tous 🙂

Un petit article pour vous montrer comment Ă©crire automatiquement la balise SEO title avec du Perl ! Cette technique peut vous sembler un peu black hat, mais si on utilise bien l’automatisation, il n’y a rien de bien mĂ©chant, voire cela pourrait ĂȘtre un petit coup de pouce si jamais on a beaucoup de pages Ă  travailler. Comme vous l’auriez constater, j’adore coupler SEO et traitement automatique des langues quand il est possible (bien sĂ»r !).

Voici un petit exemple (que j’ai repris de ma page AUTOVEILLE des outils SEO) pour automatiser l’Ă©criture de la balise title:

 

automatiser l'écriture des balises title

On constate que les balises title en sortie sont bien structurĂ©es et propres, et elles ont Ă©tĂ© Ă©crites en quelques secondes ! Si vous souhaitez d’autres exemples, faites moi signe ! 🙂

L’Ă©criture des mĂ©ta descriptions peut Ă©galement ĂȘtre automatisĂ©e.

N’hĂ©sitez pas Ă  vous rendre sur le site officiel d’AUTOVEILLE de temps en temps pour vous tenir au courant des nouveaux services que je mets en place.

Bon courage !

VĂ©ronique Duong –

Hello tout le monde !

Me revoilĂ  avec un nouvel article 100% geek ! Je vais vous montrer comment extraire automatiquement les liens internes d’une page web. Ce n’est pas bien compliquĂ© si vous maĂźtrisez la programmation Perl, les lignes de commandes Shell, et le Terminal de Linux.

Pour pouvoir implĂ©menter ce test, il faut installer le module WWW::Mechanize que l’on peut trouver sur CPAN.

Le script Perl pour le crawl ressemble Ă  cela:

script Perl WWW::MechanizeIl est trĂšs trĂšs court comme vous pouvez le constater, mais assez robuste pour extraire automatiquement toutes les URL d’une page web. Si vous souhaitez extraire toutes les URL de toutes les pages d’un site, il faudra adapter le code (ce qui peut se faire assez facilement).

Voici les liens extraits de ma page d’accueil d’AUTOVEILLE (capture d’Ă©cran de ma konsole Linux):

extraction de liens d'une page web

Si vous n’ĂȘtes pas du tout programmation, je peux vous proposer l’outil LinkExtractor qui fait Ă  peu prĂšs le mĂȘme boulot.

Cependant, avec un outil comme LinkExtractor, vous ne pouvez pas le personnaliser, le modifier, vous n’avez pas la main dessus pour l’adapter Ă  vos besoins pro ou perso.

Si vous avez des questions ou un avis, n’hĂ©sitez pas Ă  me les poser par mail ou Ă  me laisser un mot dans les commentaires. Je serai contente de vous lire et / ou de vous rĂ©pondre ! 🙂

Merci et bon courage !

Véronique Duong