Ingénierie Linguistique x SEO : Mettre en place un crawler sémantique [PROJET]

Bonjour tout le monde !

Je m’adresse à tous les content strategist, content specialist, toutes les personnes qui travaillent avec les contenus et qui ont besoin de les rendre SEO-friendly : On a mis en en place une solution automatique pour extraire les contenus des rubriques intéressantes (fiches produits, best sellers, actualités, etc.) d’un site afin qu’ils puissent être optimisés ensuite.

A l’heure actuelle, il n’existe pas vraiment d’outils ou de logiciels génériques (si ce n’est que des scripts sur-mesure) pour crawler les contenus textuels d’un site et qui puissent sortir des données exhaustives sur ces derniers.

Problématiques de Crawler de Contenu :

Est-ce que le site de mon client est optimisé sémantiquement parlant ?
➔ NON > OK, pas de chaîne de traitement à mettre en place
➔ OUI > Pour quels mots-clés ? (On n’a pas de crawler de contenu qui permet de les trouver automatiquement)
➔ Il faut ensuite calculer le poids des mots-clés dans le site au global (mais comment déterminer ce poids ?), et calculer la pertinence des pages par mots-clés (quel poids pour quel critère ? et quels documents parlent de ces mots-clés ?)
➔ Pour les mots-clés, on doit calculer les positions, les volumes de recherche, les poids et pertinence de ces derniers

On aura donc besoin de deux corpus : le corpus de test (le site du client), et un corpus d’apprentissage (les sites des concurrents), par exemple.

Exemple de scraping de contenu de fiches produits (extraction brute) :

crawler-semantique-seo-veroduong

On est à la phase prototype ! Si vous voulez rejoindre ce projet innovant, écrivez-moi vite à autoveille@gmail.com ou vduong@rankwell.fr

Bon courage à tous !

Véronique Duong – TAListe x SEO lover & Directrice @Rankwell

Publicités

Laissez un petit mot à AUTOVEILLE ;)

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.

%d blogueurs aiment cette page :