archive

Archives de Tag: XML

Bonjour Ă  tous !

Avec l’approche de la disparition de Google Reader (T_T), j’ai rĂ©cupĂ©rĂ© tous mes flux RSS pour les mettre dans mon logiciel de veille.

En effet, AUTOVEILLE effectue Ă©galement une veille automatique sur les flux RSS, et je pense que c’est l’un des plus gros points forts de mon outil de veille. Il rĂ©cupĂšre selon la durĂ©e programmĂ©e toutes les informations disponibles en temps rĂ©el via le flux RSS donnĂ©.

PrĂ©cĂ©demment, je vous avais montrĂ© comment je collecte et veille automatiquement sur des tweets (vous pouvez lire l’article: Veille automatique et collecte de Tweets) et le principe est trĂšs similaire. Mon outil de veille automatique permet alors de collecter Ă  la fois des tweets et des flux RSS en mĂȘme temps (en plus de la dĂ©tection des changements de pages web).

Voici une petite démonstration de la collecte automatique de flux RSS:

1) Je prends l’exemple de Webrankinfo > Les flux RSS des articles

Logiciel veille: Collecte flux RSS Webrankinfo

2) Les flux RSS sont des fichiers XML, et ont cette apparence:

Logiciel de veille: Collecte automatique flux RSS XML

3) Ensuite, je passe ce fichier XML ou ce flux RSS dans mon logiciel de veille automatique pour rĂ©cupĂ©rer les derniĂšres informations selon la durĂ©e que j’ai programmĂ©e. Perso, je mets souvent 2 heures. C’est Ă  dire que toutes les deux heures, mon outil de veille va aller crawler la page et dĂ©tecter s’il y a de nouvelles informations.

Voici un aperçu de mon fameux logiciel de veille

logiciel de veille: collecte automatique de flux RSS, de tweets et de pages web4) AprĂšs avoir mis le flux dans l’outil de collecte, je laisse tourner tout seul (vive l’automatisation), et au bout de deux heures, s’il y a eu des changements, je le vois dans un fichier XML comme celui-ci:

Logiciel de veille automatique: flux RSS webrankinfoEt voilà, en plus je vous ai récupéré la derniÚre news du jour (19/06/2013) qui parle des parts de marché de Google, Bing, Yahoo du site WebRankInfo !

En tout cas Google Reader va me manquer, mais j’ai ma solution pour toujours utiliser les flux RSS intelligement. Et une nouveautĂ© dont je ne vous ai pas encore parlĂ© (je vous parlais de mise Ă  jour hier dans mon article prĂ©cĂ©dent avec les 8 astuces SEO), c’est le moteur de recherche interne. On peut trier les informations collectĂ©es avec ce moteur, et cela facilite beaucoup le travail du tri car c’est Ă©galement une tĂąche trĂšs chronophage ! On rĂ©cupĂšre juste les informations contenant les mots-clĂ©s recherchĂ©s. Exemple ci-dessous « Google OR Yahoo »

Logiciel veille: moteur de recherche interne au agrĂ©gateur de flux RSS comme Google ReaderC’est un moteur de recherche intĂ©grĂ© au agrĂ©gateur de flux RSS, AUTOVEILLE Monitoring. J’essaye de dĂ©velopper une stratĂ©gie / un moteur similaire Ă  celui de Google Reader, et avec ce que j’obtiens, j’en suis satisfaite pour le moment, mais je peux encore amĂ©liorer (I can do it !!)

Avec la plupart des agrĂ©gateurs, on ne peut pas trier par mots-clĂ©s les donnĂ©es rĂ©cupĂ©rĂ©es. Je peux tout de mĂȘme le faire avec Bamboo de Firefox, mais c’est moins robuste que Reader.

En tout cas, si vous voulez en savoir plus, ou si vous voulez une petite démo sur un de vos flux, laissez moi un petit mot !

Bon courage !

VĂ©ronique Duong –

 

 

Publicités

Bonjour Ă  tous,

Comme on me le demande souvent, j’ai dĂ©cidĂ© de faire un article pour vous montrer comment faire une veille automatique ainsi qu’une collecte automatique des tweets depuis Twitter.

Pour cela, je dĂ©veloppe un script Perl pour chaque crawl. C’est Ă  dire que j’adapte mes crawls en fonction du type d’Ă©lĂ©ments Ă  crawler. RĂ©cupĂ©rer des tweets est diffĂ©rent de rĂ©cupĂ©rer des pages web par exemple.

A partir d’une recherche de tweets par #hashtag, mot-clĂ© ou expressions clĂ©s, j’en crĂ©e un flux RSS que je passe sous AUTOVEILLE. Ensuite, mon logiciel de veille collecte les tweets au format XML, et je traite ce XML au format demandĂ© par le client.

Voici un exemple d’un tweet au format XML:

collecte automatique de tweets

Avec quelques lignes de commandes Bash (Shell), je récupÚre uniquement les liens vers mes tweets collectés:

collecte automatique de tweets

Encore un peu de nettoyage automatique pour retirer les balises link

tweets collectés

Voilà, avec cette collecte, vous pouvez sauvegarder vos précieux tweets. Pour les afficher, il suffit de les repasser au format XML ou HTML. En repassant au format HTML, on obtient des tweets dans ce format:

tweet-format-html

J’adapte chaque veille / chaque collecte au cas par cas comme vous pouvez le constater.

Bon courage !

VĂ©ronique Duong –

Hello !

Jusqu’Ă  prĂ©sent, je n’avais jamais encore montrĂ© Ă  quoi ressemble les donnĂ©es que je rĂ©cupĂšre en automatisant la veille. En effet avec mon outil de veille automatique, je peux m’en servir comme agrĂ©gateur de flux RSS aussi !
Voici la preuve en images :

Image

Le format de sortie peut ĂȘtre dĂ©fini selon les demandes du client, mais je conseille le format XML pour une meilleure structure et lecture du document. En effet, on peut ouvrir un XML directement dans un navigateur internet et avoir les informations clairement listĂ©es. La mise en forme peut se faire avec du XSLT (feuille de style XML) pour le XML.

J’ai fait une comparaison avec le site web (Webrankinfo), et on voit que les informations du site ont bien Ă©tĂ© rĂ©cupĂ©rĂ©es:

Image

Et avec AUTOVEILLE, on a toutes les news en temps rĂ©el, et mon logiciel de veille automatique ne fonctionne pas qu’avec des flux RSS, mais aussi des pages web.

Rendez-vous sur le site officiel pour plus d’informations >> AUTOVEILLE Monitoring

Contact: autoveille@gmail.com

%d blogueurs aiment cette page :