archive

Archives de Tag: Perl

Bonjour à tous,

Comme on me le demande souvent, j’ai décidé de faire un article pour vous montrer comment faire une veille automatique ainsi qu’une collecte automatique des tweets depuis Twitter.

Pour cela, je développe un script Perl pour chaque crawl. C’est à dire que j’adapte mes crawls en fonction du type d’éléments à crawler. Récupérer des tweets est différent de récupérer des pages web par exemple.

A partir d’une recherche de tweets par #hashtag, mot-clé ou expressions clés, j’en crée un flux RSS que je passe sous AUTOVEILLE. Ensuite, mon logiciel de veille collecte les tweets au format XML, et je traite ce XML au format demandé par le client.

Voici un exemple d’un tweet au format XML:

collecte automatique de tweets

Avec quelques lignes de commandes Bash (Shell), je récupère uniquement les liens vers mes tweets collectés:

collecte automatique de tweets

Encore un peu de nettoyage automatique pour retirer les balises link

tweets collectés

Voilà, avec cette collecte, vous pouvez sauvegarder vos précieux tweets. Pour les afficher, il suffit de les repasser au format XML ou HTML. En repassant au format HTML, on obtient des tweets dans ce format:

tweet-format-html

J’adapte chaque veille / chaque collecte au cas par cas comme vous pouvez le constater.

Bon courage !

Véronique Duong –

Bonjour à tous !

Si vous m’avez suivi il y a moins d’une heure sur Twitter, j’ai fait part de mon nouveau développement Perl: un outil pour mesurer le Page Rank d’une page web !

Le code de mon outil se compose de quelques lignes du langage Perl, et il peut prendre en paramètres n’importe quelle URL. Voici un rapide aperçu du code:

Outil pour mesurer le Page Rank

Robuste et hyper facile à utiliser 🙂

Voici le message que j’ai en sortie (test sur le page de Wikipedia):

>> The Page Rank of the web page is : 9

Donc le PR de Wikipédia est de 9 🙂

Je vais préparer un article plus détaillé dans les jours à venir, mais celui-ci vous donne déjà une idée de l’outil. Si vous voulez en savoir plus, laissez moi un message !

Bon courage !

Véronique Duong

Bonsoir !

Il est tard, mais travailler le SEO et coder en Perl, ça peut se faire à n’importe quel moment pour moi (haha). Ce soir, j’ai envie de partager quelques modules Perl très intéressants appliqués au SEO.

Le Perl est un langage de programmation informatique inventé par Larry Wall en 1987 qui reprend des fonctions du langage C et des éléments de scripts Shell. Personnellement, je programme sous Ubuntu ou Kubuntu (environnements Linux), et je teste, je me sers des modules que je trouve sur CPAN (The Comprehensive Perl Archive Network).Je « m’amuse » à découvrir les outils proposés, et je les essaye, les customize, etc.

Certains modules peuvent être servis pour le SEO, comme le crawl des pages d’un site web, l’extraction de certaines URL, ainsi de suite. Voici quelques modules que j’aime beaucoup utililser:

1) WWW::Mechanize (extraction puissante des URL d’un site)

2) WWW::Google::PageRank (trouve les PR des sites)

3) LWP::UserAgent (crawl les pages d’un site web)

Etc.

Je me sers également de Perl et du Shell pour travailler les ReGex lors de projets d’URL rewriting. Cela peut être très pratique quand on a beaucoup d’URL à réécrire.

Pour coder rapidement en Perl, j’utilise Codepad (sélectionnez Perl). Vous trouverez plus d’informations sur mes recherches et les différents outils Perl que j’ai développés sur AUTOVEILLE.

Livre programmer en Perl

Livre programmer en Perl Source: http://www.rogerwendell.com

Le livre qui m’intéresse énormément depuis un moment, c’est bien celui ci-dessous !

Perl pour les linguistes

Perl pour les linguistes

Il coûte 114€ … ce qui est assez cher, mais c’est un luxe que je dois m’offrir en tant qu’ingénieure linguiste informaticienne 🙂 !

En tout cas, c’est une passion.

Bon courage !

Véronique Duong

%d blogueurs aiment cette page :