Extraire automatiquement les liens d’une page web

Hello tout le monde !

Me revoilà avec un nouvel article 100% geek ! Je vais vous montrer comment extraire automatiquement les liens internes d’une page web. Ce n’est pas bien compliqué si vous maîtrisez la programmation Perl, les lignes de commandes Shell, et le Terminal de Linux.

Pour pouvoir implémenter ce test, il faut installer le module WWW::Mechanize que l’on peut trouver sur CPAN.

Le script Perl pour le crawl ressemble à cela:

Il est très très court comme vous pouvez le constater, mais assez robuste pour extraire automatiquement toutes les URL d’une page web. Si vous souhaitez extraire toutes les URL de toutes les pages d’un site, il faudra adapter le code (ce qui peut se faire assez facilement).

Voici les liens extraits de ma page d’accueil d’AUTOVEILLE (capture d’écran de ma konsole Linux):

Si vous n’êtes pas du tout programmation, je peux vous proposer l’outil LinkExtractor qui fait à peu près le même boulot.

Cependant, avec un outil comme LinkExtractor, vous ne pouvez pas le personnaliser, le modifier, vous n’avez pas la main dessus pour l’adapter à vos besoins pro ou perso.

Si vous avez des questions ou un avis, n’hésitez pas à me les poser par mail ou à me laisser un mot dans les commentaires. Je serai contente de vous lire et / ou de vous répondre ! 🙂

Merci et bon courage !

Véronique Duong

—📈 AUTOVEILLE par Véronique DUONG | Expert SEO international | Référencement multilingue

Extraire automatiquement les liens d’une page web

Laissez un petit mot à AUTOVEILLE ;) Annuler la réponse.

Partagez sur:

Similaire

Laissez un petit mot à AUTOVEILLE ;) Annuler la réponse.