CPAN | 📈 AUTOVEILLE par Véronique DUONG | Expert SEO international

Hello tout le monde !

Me revoilà avec un nouvel article 100% geek ! Je vais vous montrer comment extraire automatiquement les liens internes d’une page web. Ce n’est pas bien compliqué si vous maîtrisez la programmation Perl, les lignes de commandes Shell, et le Terminal de Linux.

Pour pouvoir implémenter ce test, il faut installer le module WWW::Mechanize que l’on peut trouver sur CPAN.

Le script Perl pour le crawl ressemble à cela:

Il est très très court comme vous pouvez le constater, mais assez robuste pour extraire automatiquement toutes les URL d’une page web. Si vous souhaitez extraire toutes les URL de toutes les pages d’un site, il faudra adapter le code (ce qui peut se faire assez facilement).

Voici les liens extraits de ma page d’accueil d’AUTOVEILLE (capture d’écran de ma konsole Linux):

Si vous n’êtes pas du tout programmation, je peux vous proposer l’outil LinkExtractor qui fait à peu près le même boulot.

Cependant, avec un outil comme LinkExtractor, vous ne pouvez pas le personnaliser, le modifier, vous n’avez pas la main dessus pour l’adapter à vos besoins pro ou perso.

Si vous avez des questions ou un avis, n’hésitez pas à me les poser par mail ou à me laisser un mot dans les commentaires. Je serai contente de vous lire et / ou de vous répondre ! 🙂

Merci et bon courage !

Véronique Duong

Bonsoir !

Il est tard, mais travailler le SEO et coder en Perl, ça peut se faire à n’importe quel moment pour moi (haha). Ce soir, j’ai envie de partager quelques modules Perl très intéressants appliqués au SEO.

Le Perl est un langage de programmation informatique inventé par Larry Wall en 1987 qui reprend des fonctions du langage C et des éléments de scripts Shell. Personnellement, je programme sous Ubuntu ou Kubuntu (environnements Linux), et je teste, je me sers des modules que je trouve sur CPAN (The Comprehensive Perl Archive Network).Je « m’amuse » à découvrir les outils proposés, et je les essaye, les customize, etc.

Certains modules peuvent être servis pour le SEO, comme le crawl des pages d’un site web, l’extraction de certaines URL, ainsi de suite. Voici quelques modules que j’aime beaucoup utililser:

1) WWW::Mechanize (extraction puissante des URL d’un site)

2) WWW::Google::PageRank (trouve les PR des sites)

3) LWP::UserAgent (crawl les pages d’un site web)

Etc.

Je me sers également de Perl et du Shell pour travailler les ReGex lors de projets d’URL rewriting. Cela peut être très pratique quand on a beaucoup d’URL à réécrire.

Pour coder rapidement en Perl, j’utilise Codepad (sélectionnez Perl). Vous trouverez plus d’informations sur mes recherches et les différents outils Perl que j’ai développés sur AUTOVEILLE.

Livre programmer en Perl Source: http://www.rogerwendell.com

Le livre qui m’intéresse énormément depuis un moment, c’est bien celui ci-dessous !

Perl pour les linguistes

Il coûte 114€ … ce qui est assez cher, mais c’est un luxe que je dois m’offrir en tant qu’ingénieure linguiste informaticienne 🙂 !

En tout cas, c’est une passion.

Bon courage !

Véronique Duong

—📈 AUTOVEILLE par Véronique DUONG | Expert SEO international | Référencement multilingue

archive

Archives de Tag: CPAN

Extraire automatiquement les liens d’une page web

Quelques modules Perl pour le SEO

Partagez sur:

Partagez sur: