archive

Archives de Tag: CPAN

Hello tout le monde !

Me revoilĂ  avec un nouvel article 100% geek ! Je vais vous montrer comment extraire automatiquement les liens internes d’une page web. Ce n’est pas bien compliquĂ© si vous maĂźtrisez la programmation Perl, les lignes de commandes Shell, et le Terminal de Linux.

Pour pouvoir implĂ©menter ce test, il faut installer le module WWW::Mechanize que l’on peut trouver sur CPAN.

Le script Perl pour le crawl ressemble Ă  cela:

script Perl WWW::MechanizeIl est trĂšs trĂšs court comme vous pouvez le constater, mais assez robuste pour extraire automatiquement toutes les URL d’une page web. Si vous souhaitez extraire toutes les URL de toutes les pages d’un site, il faudra adapter le code (ce qui peut se faire assez facilement).

Voici les liens extraits de ma page d’accueil d’AUTOVEILLE (capture d’Ă©cran de ma konsole Linux):

extraction de liens d'une page web

Si vous n’ĂȘtes pas du tout programmation, je peux vous proposer l’outil LinkExtractor qui fait Ă  peu prĂšs le mĂȘme boulot.

Cependant, avec un outil comme LinkExtractor, vous ne pouvez pas le personnaliser, le modifier, vous n’avez pas la main dessus pour l’adapter Ă  vos besoins pro ou perso.

Si vous avez des questions ou un avis, n’hĂ©sitez pas Ă  me les poser par mail ou Ă  me laisser un mot dans les commentaires. Je serai contente de vous lire et / ou de vous rĂ©pondre ! 🙂

Merci et bon courage !

VĂ©ronique Duong

Publicités

Bonsoir !

Il est tard, mais travailler le SEO et coder en Perl, ça peut se faire Ă  n’importe quel moment pour moi (haha). Ce soir, j’ai envie de partager quelques modules Perl trĂšs intĂ©ressants appliquĂ©s au SEO.

Le Perl est un langage de programmation informatique inventĂ© par Larry Wall en 1987 qui reprend des fonctions du langage C et des Ă©lĂ©ments de scripts Shell. Personnellement, je programme sous Ubuntu ou Kubuntu (environnements Linux), et je teste, je me sers des modules que je trouve sur CPAN (The Comprehensive Perl Archive Network).Je « m’amuse » Ă  dĂ©couvrir les outils proposĂ©s, et je les essaye, les customize, etc.

Certains modules peuvent ĂȘtre servis pour le SEO, comme le crawl des pages d’un site web, l’extraction de certaines URL, ainsi de suite. Voici quelques modules que j’aime beaucoup utililser:

1) WWW::Mechanize (extraction puissante des URL d’un site)

2) WWW::Google::PageRank (trouve les PR des sites)

3) LWP::UserAgent (crawl les pages d’un site web)

Etc.

Je me sers Ă©galement de Perl et du Shell pour travailler les ReGex lors de projets d’URL rewriting. Cela peut ĂȘtre trĂšs pratique quand on a beaucoup d’URL Ă  rĂ©Ă©crire.

Pour coder rapidement en Perl, j’utilise Codepad (sĂ©lectionnez Perl). Vous trouverez plus d’informations sur mes recherches et les diffĂ©rents outils Perl que j’ai dĂ©veloppĂ©s sur AUTOVEILLE.

Livre programmer en Perl

Livre programmer en Perl Source: http://www.rogerwendell.com

Le livre qui m’intĂ©resse Ă©normĂ©ment depuis un moment, c’est bien celui ci-dessous !

Perl pour les linguistes

Perl pour les linguistes

Il coĂ»te 114€ … ce qui est assez cher, mais c’est un luxe que je dois m’offrir en tant qu’ingĂ©nieure linguiste informaticienne 🙂 !

En tout cas, c’est une passion.

Bon courage !

VĂ©ronique Duong

%d blogueurs aiment cette page :