Outil automatique : identifier les auteurs (veilles et big data)

Bonjour à tous !

Ce week-end pour changer un peu des veilles automatiques d’infographies avec AUTOVEILLE, mon logiciel de veille, je vous propose de découvrir un outil que je suis en train de développer pour identifier automatiquement les auteurs et les sources des articles.

Avec la big data, la curation, les partages sur les divers médias sociaux et l’infobésité, parfois, on ne sait plus qui est l’auteur original d’un article ou d »une information. J’ai donc décidé (et surtout tenté) de développer un nouvel outil pour extraire les auteurs et le maximum de sources pour retrouver le créateur de l’article parmi une base de fichiers HTML que j’aurais collectés au préalable avec … AUTOVEILLE corpus.

Dans mon algorithme, j’y ai mis plusieurs règles pour pouvoir extraire un maximum d’éléments sur les auteurs. De ce fait, mon outil pourrait également être utilisé dans l’extraction des « auteurs-copieurs » d’articles, les plagiats et le duplicate content …

Voici un cas de figure que je suis en train d’étudier :

Je recherche sur le web si on m’a copié avec Google. Je copie/colle un extrait d’un de mes articles entre  »  »  dans le moteur de recherche.

Ensuite, j’aspire automatiquement toutes les pages qui contiennent cet extrait.

Puis, je télécharge les liens de ces pages sous forme de fichiers .html. Cela me crée une base.

Et au final, je lance mon algorithme d’identification d’auteurs, et je découvre qui sont les auteurs qui ont repris mes contenus …

Voici un extrait de mon code source :

Outil extraction d'auteurs automatique big data AUTOVEILLEVoici ce que j’obtiens en résultats :

Résultats extraction automatique d'auteurs AUTOVEILLEJ’ai identifié une personne qui reprend souvent mes contenus et qui les publient sur son blog. J’ai son nom et son prénom, son profil Google+, ainsi que les citations qu’il a repris de mes discours (vous reconnaîtriez mon style …)

Pour l’instant, mon outil est en cours de développement. Je pense qu’un outil d’identification d’auteurs, pour trouver les plagiats, les duplicate content, ou tout simplement retrouver l’auteur original d’un article, pourrait être très utile pour affiner les tris des informations lors d’un processus de veille, par exemple.

Qu’en pensez-vous ? Toute suggestion est la bienvenue en tout cas. Et si vous souhaitez en savoir plus, écrivez-moi !

Bon courage à tous 🙂

Véronique Duong –

 

Advertisements
2 commentaires

Laissez un petit mot à AUTOVEILLE ;)

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :