archive

Archives de Tag: Crawl SEO

Bonjour Ă  tous !

J’ai rĂ©cemment dĂ©veloppĂ© une nouvelle petite technique pour extraire toutes les balises title d’un site web en quelques secondes ! Cette nouvelle fonctionnalitĂ© va Ă©galement rejoindre le package d’outils SEO d’AUTOVEILLE.

Pour faire cette extraction, j’ai eu besoin de « dĂ©tourner » AUTOVEILLE Monitoring (le logiciel de veille) en tant qu’outil de crawl pour collecter toutes les pages du site web. A la suite de la rĂ©cupĂ©ration automatique des pages web du site, je lance ma rĂšgle d’extraction sur cette collecte pour n’extraire que les informations dont j’ai besoin : ici, les balises title.

J’ai pris le site d’Oliver Duffez pour faire le test :

1) Voici la premiĂšre extraction brute, sans nettoyage

extraction automatique de balises title par AUTOVEILLE

 

2) AprÚs quelques lignes de commandes lancées dans la Konsole de Kubuntu pour le nettoyage :

balises title wri extraites par AUTOVEILLE

 

En tout, l’extraction a durĂ© moins de 2 secondes … mais dĂ©pendant de la taille du site, le temps d’extraction pourrait varier. On peut utiliser cette extraction de balises title pour vĂ©rifier la longueur de ces derniĂšres, les mots-clĂ©s, etc. TrĂšs pratique dans l’ensemble.

 

Peu Ă  peu, j’utilise de moins en moins Xenu ou autres outils de ce type pour faire les crawls, car je trouve qu’ils sont moins souples et personnalisables par rapport Ă  AUTOVEILLE qui est composĂ© d’outils codĂ©s essentiellement en Perl (mais pas que !).

En tout cas, si vous voulez tester la fonctionnalitĂ© d’extraction complĂšte d’URL de site web (crawl) et/ou l’extraction de balises title, contactez-moi ! 🙂 Il se peut que j’ouvre une nouvelle session de tests, trĂšs bientĂŽt, pour le SEO aussi. Les tests sont fait pour vous faire dĂ©couvrir l’ingĂ©nierie linguistique / le traitement automatique des langues (ou des donnĂ©es plutĂŽt), et ils ne sont pas payants.

Bon courage Ă  tous !

VĂ©ronique Duong –

Publicités
%d blogueurs aiment cette page :