Crawler et extraire automatiquement les URL d’un site (Outil SEO)
Bonjour à tous !
Je reviens avec un article geek pour débuter la semaine en beauté ! Voilà , récemment, j’ai eu besoin de faire une extraction complète d’URL d’un très très gros site web contenant plus de 5000 pages. Je sais qu’il existe pas mal d’outils (plus ou moins) gratuits sur le marché pour faire des extractions d’URL, mais après avoir étudié nombreux d’entre eux, ils ne répondaient pas parfaitement à ce que je recherchais.
Après avoir cherché une solution pendant un bon moment, je me suis dit qu’AUTOVEILLE pourrait très bien crawler un site web tout en extrayant les URL. Parce que si j’arrive à veiller des sites ou des pages avec AUTOVEILLE Monitoring en récupérant des masses d’informations, je pourrais également détourner mon logiciel de veille automatique en outil de crawl de sites web.
J’ai donc tenté l’essai. J’ai également mis en place un log pour récupérer les URL et leurs codes de statuts http.
Voici l’exemple du crawl sur mon propre site AUTOVEILLE:
1) Indication du temps que mon outil de crawl AUTOVEILLE a mis pour extraire toutes les URL du site
2) Indication détaillée sur une des URL de mon site (poids, code de statut http, etc.)
3) Ensuite, si vous souhaitez n’extraire que les URL, il suffit de faire un peu de nettoyage pour obtenir un fichier propre. Dans l’exemple ci-dessous, il y a toutes les URL même les images, le robots.txt, le CSS, etc.
4) Si vous ne souhaitez que les URL avec .html ou autre extension, il suffit de recréer un filtre sur les URL extraites
En tout cas, je suis contente de ma « découverte » qui est en fait une autre façon d’utiliser mon outil de veille automatique ! 🙂 Il marche très bien sur les petits / moyens sites. Par contre pour un très très gros site, il faut avoir un peu de patience, car il met plus de temps à crawler (ce qui est normal me diriez-vous).
Facilement adaptables, mes outils peuvent être personnalisés pour différents cas.
Bon courage !
Véronique Duong –
Pingback: Crawler et extraire automatiquement les URL d&r...
Pingback: Crawler et extraire automatiquement les URL d'u...