archive

Traitement automatique des langues

Bonjour tout le monde !

Aujourd’hui, je ne vais pas vous parler de logiciel de veille automatique ou d’outils d’automatisation. Vous pouvez tout de même lire la news de la semaine sur mon site officiel AUTOVEILLE. A la Une, je vous parle d’interviews en cours, d’astuces SEO, et de méta tags optimisées à gogo !

Néanmoins, j’ai une autre petite infographie à partager avec vous (après celle d’hier avec les 200 critères SEO de Google). Je l’ai récupéré sur le site Abondance d’Olivier Andrieu (merci beaucoup au passage !). Cette jolie infographie vous présente les principales actions SEO plus ou moins complexes à faire en amont pour augmenter le trafic et la visibilité d’un site web.

 

Infographie des principales actions SEO pour la visibilité des sites web

Plus on va en profondeur, plus les actions sont complexes, et plus le trafic et la visibilité du site augmente. Faites donc attention à vos balises hn (je le précise et répéte, un h1 doit contenir du texte !! et non des images comme j’ai pu le voir T_T),  aux pages erreurs, aux liens brisés, aux balises title, aux contenus dupliqués, etc. Ces techniques et actions peuvent tout changer ! Elles sont vitales aux sites web.

Bon, je retourne sur mon crawl automatique d’URL … 😉 #SEOpassion
Bon courage ! 🙂

Véronique Duong –

Bonjour à tous !

Aujourd’hui, j’ai décidé de vous préparer un article pour résumer toutes les technologies que AUTOVEILLE Monitoring, mon outil de veille automatique peut offrir. Avec les améliorations et les changements que j’apporte souvent à mes outils d’automatisation, j’estime qu’un récapitulatif est important.

Au fur et à mesure que je travaille sur mes outils, je découvre ou je détourne certains d’entre eux pour les utiliser à différentes fins. AUTOVEILLE Monitoring n’est plus seulement un logiciel de veille automatique, mais également un outil pour constituer des corpus de textes, un outil de crawl, et également un outil de scraping.

Voici plus en détails, les descriptions de chaque technologie qu’AUTOVEILLE Monitoring peut offrir:

1) C’est … un logiciel de veille. AUTOVEILLE peut surveiller:

  • des pages web
  • des flux RSS
  • des tweets
  • des textes issus d’une base de données (par mot-clé)

2) C’est … un outil de constitution de corpus automatique. AUTOVEILLE peut collecter:

  • des pages web
  • des flux RSS
  • les contenus textuels des sites web

3) C’est … un outil de crawl. AUTOVEILLE peut récupérer:

  • des pages web
  • des données (partiellement ou en totalité) d’un site web
  • des PDF, des Word, des Excel, des images, etc.

4) C’est … un outil de scraping (SEO). AUTOVEILLE peut extraire:

  • des URL d’un site web (partiellement ou en totalité)
  • des liens internes d’une page web

Cependant, AUTOVEILLE est avant tout un service de veille automatique dont les contenus veillés seront directement envoyés aux chargés de veille. J’ai également des demandes pour utiliser AUTOVEILLE comme outil d’extraction d’URL pour récupérer toutes les URL d’un site.

Je rappelle à l’occasion que mes outils ne sont pas à vendre car ce sont des scripts Perl sans interface graphique. En revanche, AUTOVEILLE peut vous offrir un service adaptable et robuste au vu de la flexibilité des logiciels.

Logiciel veille: AUTOVEILLE et ses technologies

Bon courage !

Véronique Duong –

 

Bonjour à tous !

Je reviens avec un article geek pour débuter la semaine en beauté ! Voilà, récemment, j’ai eu besoin de faire une extraction complète d’URL d’un très très gros site web contenant plus de 5000 pages. Je sais qu’il existe pas mal d’outils (plus ou moins) gratuits sur le marché pour faire des extractions d’URL, mais après avoir étudié nombreux d’entre eux, ils ne répondaient pas parfaitement à ce que je recherchais.

Après avoir cherché une solution pendant un bon moment, je me suis dit qu’AUTOVEILLE pourrait très bien crawler un site web tout en extrayant les URL. Parce que si j’arrive à veiller des sites ou des pages avec AUTOVEILLE Monitoring en récupérant des masses d’informations, je pourrais également détourner mon logiciel de veille automatique en outil de crawl de sites web.

J’ai donc tenté l’essai. J’ai également mis en place un log pour récupérer les URL et leurs codes de statuts http.

Voici l’exemple du crawl sur mon propre site AUTOVEILLE:

1) Indication du temps que mon outil de crawl AUTOVEILLE a mis pour extraire toutes les URL du site

Outil extraction URL AUTOVEILLE

2) Indication détaillée sur une des URL de mon site (poids, code de statut http, etc.)

Outil de crawl d'URL AUTOVEILLE

3) Ensuite, si vous souhaitez n’extraire que les URL, il suffit de faire un peu de nettoyage pour obtenir un fichier propre. Dans l’exemple ci-dessous, il y a toutes les URL même les images, le robots.txt, le CSS, etc.

Extraction des URL d'un site4) Si vous ne souhaitez que les URL avec .html ou autre extension, il suffit de recréer un filtre sur les URL extraites

Outil SEO extraction URL

En tout cas, je suis contente de ma « découverte » qui est en fait une autre façon d’utiliser mon outil de veille automatique ! 🙂 Il marche très bien sur les petits / moyens sites. Par contre pour un très très gros site, il faut avoir un peu de patience, car il met plus de temps à crawler (ce qui est normal me diriez-vous).

Facilement adaptables, mes outils peuvent être personnalisés pour différents cas.

Bon courage !

Véronique Duong –

 

Bonjour à tous !

Je vous ai préparé un petit article sur le calcul automatique de la fréquence d’une occurence dans un corpus de textes ou … tout simplement d’une page web pour effectuer une analyse des mots-clés.

L’outil de calcul, que j’ai implémenté, ressemble quelque peu au Keyword Analysis Tool

Ce petit robot a été scripté en Perl. Il permet de découper un corpus de textes en mot et d’indiquer la fréquence (statistiques textuelles) de chaque forme présente dans le contenu.

Mon outil met environ 1 à 2 secondes pour découper le texte. Très rapide, non ? 🙂

Voici à quoi ressemble le script:

Outil d'analyse de mots-clés

Après avoir passé ce script sur un corpus de textes, on obtient des données statistiques, montrant le nombre de fois qu’une forme apparaît, comme celles-ci:

Fréquence de mots-clés et statistiques textuellesSi vous souhaitez en savoir plus, je vous invite à vous rendre sur le site AUTOVEILLE pour avoir plus d’informations. Sinon, posez-moi des questions via autoveille@gmail.com

Bon courage !

Véronique Duong –

Bonjour tout le monde !

Hier, je vous ai montré comment faire une veille automatique et une collecte sur des tweets. Aujourd’hui, je reviens avec un article sur une veille automatisée et l’extraction des commentaires dans les publications sur les médias traditionnels ou les blogs et/ou les forums.

Les commentaires sont également des verbatims intéressants à étudier pour  l’e-réputation ou l’analyse d’opinions. En effet, c’est souvent dans ces derniers que les internautes expriment leurs pensées et leurs opinions sur un sujet.

Voici rapidement comment je fais pour collecter efficacement et rapidement des commentaires:

1) J’utilise AUTOVEILLE Monitoring et AUTOVEILLE Corpus pour faire ma collecte automatique (si vous voulez en savoir plus sur ces outils, je vous invite à aller sur mon site ou à m’écrire).

Exemple > Extraction des commentaires ci-dessous:

commentaires Figaro

2) Mes robots récupérent les commentaires au format HTML, et je fais une extraction de ces derniers dans un autre format exploitable par la plupart des outils de traitement automatique

Exemple > Les commentaires affichés dans ma Konsole (qui nécessitent bien évidemment encore quelques nettoyages)

commentaires-figaro-2

3)  Le corpus de commentaires extraits (à titre d’exemple)

Corpus et collecte de commentaires / verbatims

Chaque collecte pour créer un corpus de commentaires est étudié et personnalisé parce que chaque site ne présente pas les choses de la même façon. Il faut donc des outils adaptables pour rapatrier un maximum de verbatims.

 

N’hésitez pas à me donner vos avis, vos idées ou à m’écrire si vous voulez en savoir plus 🙂

Bon courage –

Véronique Duong

Bonjour à tous,

Comme on me le demande souvent, j’ai décidé de faire un article pour vous montrer comment faire une veille automatique ainsi qu’une collecte automatique des tweets depuis Twitter.

Pour cela, je développe un script Perl pour chaque crawl. C’est à dire que j’adapte mes crawls en fonction du type d’éléments à crawler. Récupérer des tweets est différent de récupérer des pages web par exemple.

A partir d’une recherche de tweets par #hashtag, mot-clé ou expressions clés, j’en crée un flux RSS que je passe sous AUTOVEILLE. Ensuite, mon logiciel de veille collecte les tweets au format XML, et je traite ce XML au format demandé par le client.

Voici un exemple d’un tweet au format XML:

collecte automatique de tweets

Avec quelques lignes de commandes Bash (Shell), je récupère uniquement les liens vers mes tweets collectés:

collecte automatique de tweets

Encore un peu de nettoyage automatique pour retirer les balises link

tweets collectés

Voilà, avec cette collecte, vous pouvez sauvegarder vos précieux tweets. Pour les afficher, il suffit de les repasser au format XML ou HTML. En repassant au format HTML, on obtient des tweets dans ce format:

tweet-format-html

J’adapte chaque veille / chaque collecte au cas par cas comme vous pouvez le constater.

Bon courage !

Véronique Duong –

Bonjour tout le monde !

Voici un nouvel article pour vous présenter un autre outil de traduction automatique (après Golgu Translate) signé Baidu: Baidu Translate (Baidu Fanyi ou 百度翻译). L’interface de l’outil ressemble quelque peu à Google Translate: deux encadrés à gauche et à droite. Mais le nombre de langues pris en compte est moins nombreuses que Google Translate. Ici, avec l’outil de traduction automatique Baidu Translate, on n’a que 8 combinaisons de langues possibles:

combinaisons langues Baidu Translate

Traduction des combinaisons de langues possibles:

  • Chinois > Anglais
  • Anglais > Chinois
  • Chinois > Japonais
  • Japonais > Chinois
  • Anglais > Japonais
  • Japonais > Anglais
  • Anglais > Thaïlandais
  • Thaïlandais > Anglais

Comme vous pouvez le constater, il n’y a pas la langue française ! Mais peut être qu’elle sera prochainement disponible (?)

J’ai fait un petit test Anglais > Chinois:

Baidu Translate English / Chinese

La traduction automatique est une traduction mot à mot. Pour des phrases simples composés de S + V + C, les outils automatiques peuvent donner quelque chose de cohérent, mais pour de longs textes avec des sous-entendus, je ne vous conseille pas d’utiliser des logiciels de traduction automatique, car cela ne marchera pas.

Dans un prochain article, je vous présenterai un autre outil de Baidu 🙂

Bon courage

Véronique Duong –

Bonjour à tous !

Je profite de cet article pour vous donner ma routine de la veille stratégique que j’effectue quotidiennement. Chaque veilleur a sa méthode, et se débrouille selon les outils et les ressources dont il possède. Chacune des méthodes peut être plus ou moins différente, mais le résultat final devrait être le même c’est à dire la diffusion de l’information veillée sous forme de comptes-rendus.

Très rapidement, je vais vous décrire ma routine de veilleuse à laquelle j’y tiens depuis plus de 2 ans. Je rappelle que je veille avec mon outil de veille automatique (AUTOVEILLE) mais également plusieurs autres outils disponibles sur le marché. J’avais rédigé un article sur ces outils de veille, si cela vous intéresse, je vous invite à le lire.

Voici les étapes de mon activité:

1) Très régulièrement, je regarde ce que ma collecte automatique donne comme résultats. Je reçois également très souvent des alertes, des tweets, et tout de suite, je trie parmi ces données pour ne garder que ce qui m’intéresse (surtout qu’il y a une réelle infobésité sur les sujets que je veille !)

2) Après avoir trié mes données récupérées automatiquement, je sélectionne parmi ces dernières celles que je vais traiter sous forme de comptes-rendus (en général, je choisis les plus pertinentes et originales), et le reste, je le partage sur Twitter ou sur d’autres réseaux sociaux.

3) Pour sélectionner mes informations préférées à traiter, je regarde:

  • le site d’où vient l’article (site pro ? site perso ? blog ? etc.)
  • la fraîcheur de l’article (plus c’est récent, mieux c’est)
  • le contenu de l’article (s’il y a de la matière ou pas ?)
  • l’auteur de l’article (quelqu’un de connu ? un blogueur ? un expert ? un amateur ? etc.)
  • le niveau « d’alerte » de l’article (est-ce que c’est un article qui contient une information cruciale pour les prochains jours / mois / années ?)

Et bien sûr le sujet traité (mais cela va de soi ;))

4) Ensuite, je commence à les lire et à rédiger mon compte-rendu soit sur mon blog AUTOVEILLE,  soit sur mon site (dans la partie News !). Le compte-rendu ne doit pas être un copié / collé des informations récupérées ! En plus en termes de SEO, c’est à éviter absolument (… duplicate content !!). En moyenne un compte-rendu me prend de 30 min à 1h de lecture / rédaction. Tout dépend de la technicité des informations collectées.

Le métier de veilleur, comme je le disais, est un métier véritablement riche en apprentissage, en stress (la « peur » de louper des informations importantes), et en rédaction (s’exprimer à travers sa plume (ou plutôt son clavier …), créer des textes originaux régulièrement). On ne s’ennuie jamais ! 😉

Les différents types de veille: veille commerciale, veille sociétale, veille technologique, veille webmarketing, veille réglementaire

Les différents types de veille

Bon courage !

Véronique Duong –

Bonjour à tous 🙂

Un petit article pour vous montrer comment écrire automatiquement la balise SEO title avec du Perl ! Cette technique peut vous sembler un peu black hat, mais si on utilise bien l’automatisation, il n’y a rien de bien méchant, voire cela pourrait être un petit coup de pouce si jamais on a beaucoup de pages à travailler. Comme vous l’auriez constater, j’adore coupler SEO et traitement automatique des langues quand il est possible (bien sûr !).

Voici un petit exemple (que j’ai repris de ma page AUTOVEILLE des outils SEO) pour automatiser l’écriture de la balise title:

 

automatiser l'écriture des balises title

On constate que les balises title en sortie sont bien structurées et propres, et elles ont été écrites en quelques secondes ! Si vous souhaitez d’autres exemples, faites moi signe ! 🙂

L’écriture des méta descriptions peut également être automatisée.

N’hésitez pas à vous rendre sur le site officiel d’AUTOVEILLE de temps en temps pour vous tenir au courant des nouveaux services que je mets en place.

Bon courage !

Véronique Duong –

Hello tout le monde !

Me revoilà avec un nouvel article 100% geek ! Je vais vous montrer comment extraire automatiquement les liens internes d’une page web. Ce n’est pas bien compliqué si vous maîtrisez la programmation Perl, les lignes de commandes Shell, et le Terminal de Linux.

Pour pouvoir implémenter ce test, il faut installer le module WWW::Mechanize que l’on peut trouver sur CPAN.

Le script Perl pour le crawl ressemble à cela:

script Perl WWW::MechanizeIl est très très court comme vous pouvez le constater, mais assez robuste pour extraire automatiquement toutes les URL d’une page web. Si vous souhaitez extraire toutes les URL de toutes les pages d’un site, il faudra adapter le code (ce qui peut se faire assez facilement).

Voici les liens extraits de ma page d’accueil d’AUTOVEILLE (capture d’écran de ma konsole Linux):

extraction de liens d'une page web

Si vous n’êtes pas du tout programmation, je peux vous proposer l’outil LinkExtractor qui fait à peu près le même boulot.

Cependant, avec un outil comme LinkExtractor, vous ne pouvez pas le personnaliser, le modifier, vous n’avez pas la main dessus pour l’adapter à vos besoins pro ou perso.

Si vous avez des questions ou un avis, n’hésitez pas à me les poser par mail ou à me laisser un mot dans les commentaires. Je serai contente de vous lire et / ou de vous répondre ! 🙂

Merci et bon courage !

Véronique Duong