archive

Archives de Tag: WWW::Mechanize

Hello tout le monde !

Me revoilà avec un nouvel article 100% geek ! Je vais vous montrer comment extraire automatiquement les liens internes d’une page web. Ce n’est pas bien compliqué si vous maîtrisez la programmation Perl, les lignes de commandes Shell, et le Terminal de Linux.

Pour pouvoir implémenter ce test, il faut installer le module WWW::Mechanize que l’on peut trouver sur CPAN.

Le script Perl pour le crawl ressemble à cela:

script Perl WWW::MechanizeIl est très très court comme vous pouvez le constater, mais assez robuste pour extraire automatiquement toutes les URL d’une page web. Si vous souhaitez extraire toutes les URL de toutes les pages d’un site, il faudra adapter le code (ce qui peut se faire assez facilement).

Voici les liens extraits de ma page d’accueil d’AUTOVEILLE (capture d’écran de ma konsole Linux):

extraction de liens d'une page web

Si vous n’êtes pas du tout programmation, je peux vous proposer l’outil LinkExtractor qui fait à peu près le même boulot.

Cependant, avec un outil comme LinkExtractor, vous ne pouvez pas le personnaliser, le modifier, vous n’avez pas la main dessus pour l’adapter à vos besoins pro ou perso.

Si vous avez des questions ou un avis, n’hésitez pas à me les poser par mail ou à me laisser un mot dans les commentaires. Je serai contente de vous lire et / ou de vous répondre ! 🙂

Merci et bon courage !

Véronique Duong

Publicité
%d blogueurs aiment cette page :