Extraire automatiquement les liens d’une page web

Hello tout le monde !

Me revoilĂ  avec un nouvel article 100% geek ! Je vais vous montrer comment extraire automatiquement les liens internes d’une page web. Ce n’est pas bien compliquĂ© si vous maĂźtrisez la programmation Perl, les lignes de commandes Shell, et le Terminal de Linux.

Pour pouvoir implĂ©menter ce test, il faut installer le module WWW::Mechanize que l’on peut trouver sur CPAN.

Le script Perl pour le crawl ressemble Ă  cela:

script Perl WWW::MechanizeIl est trĂšs trĂšs court comme vous pouvez le constater, mais assez robuste pour extraire automatiquement toutes les URL d’une page web. Si vous souhaitez extraire toutes les URL de toutes les pages d’un site, il faudra adapter le code (ce qui peut se faire assez facilement).

Voici les liens extraits de ma page d’accueil d’AUTOVEILLE (capture d’Ă©cran de ma konsole Linux):

extraction de liens d'une page web

Si vous n’ĂȘtes pas du tout programmation, je peux vous proposer l’outil LinkExtractor qui fait Ă  peu prĂšs le mĂȘme boulot.

Cependant, avec un outil comme LinkExtractor, vous ne pouvez pas le personnaliser, le modifier, vous n’avez pas la main dessus pour l’adapter Ă  vos besoins pro ou perso.

Si vous avez des questions ou un avis, n’hĂ©sitez pas Ă  me les poser par mail ou Ă  me laisser un mot dans les commentaires. Je serai contente de vous lire et / ou de vous rĂ©pondre ! 🙂

Merci et bon courage !

VĂ©ronique Duong

Publicités

Laissez un petit mot Ă  AUTOVEILLE ;)

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez Ă  l'aide de votre compte WordPress.com. DĂ©connexion / Changer )

Image Twitter

Vous commentez Ă  l'aide de votre compte Twitter. DĂ©connexion / Changer )

Photo Facebook

Vous commentez Ă  l'aide de votre compte Facebook. DĂ©connexion / Changer )

Photo Google+

Vous commentez Ă  l'aide de votre compte Google+. DĂ©connexion / Changer )

Connexion Ă  %s

%d blogueurs aiment cette page :