Outil automatique : identifier les auteurs (veilles et big data)

Bonjour Ă  tous !

Ce week-end pour changer un peu des veilles automatiques d’infographies avec AUTOVEILLE, mon logiciel de veille, je vous propose de dĂ©couvrir un outil que je suis en train de dĂ©velopper pour identifier automatiquement les auteurs et les sources des articles.

Avec la big data, la curation, les partages sur les divers mĂ©dias sociaux et l’infobĂ©sitĂ©, parfois, on ne sait plus qui est l’auteur original d’un article ou d »une information. J’ai donc dĂ©cidĂ© (et surtout tentĂ©) de dĂ©velopper un nouvel outil pour extraire les auteurs et le maximum de sources pour retrouver le crĂ©ateur de l’article parmi une base de fichiers HTML que j’aurais collectĂ©s au prĂ©alable avec … AUTOVEILLE corpus.

Dans mon algorithme, j’y ai mis plusieurs rĂšgles pour pouvoir extraire un maximum d’Ă©lĂ©ments sur les auteurs. De ce fait, mon outil pourrait Ă©galement ĂȘtre utilisĂ© dans l’extraction des « auteurs-copieurs » d’articles, les plagiats et le duplicate content …

Voici un cas de figure que je suis en train d’Ă©tudier :

Je recherche sur le web si on m’a copiĂ© avec Google. Je copie/colle un extrait d’un de mes articles entre  »  »Â  dans le moteur de recherche.

Ensuite, j’aspire automatiquement toutes les pages qui contiennent cet extrait.

Puis, je télécharge les liens de ces pages sous forme de fichiers .html. Cela me crée une base.

Et au final, je lance mon algorithme d’identification d’auteurs, et je dĂ©couvre qui sont les auteurs qui ont repris mes contenus …

Voici un extrait de mon code source :

Outil extraction d'auteurs automatique big data AUTOVEILLEVoici ce que j’obtiens en rĂ©sultats :

RĂ©sultats extraction automatique d'auteurs AUTOVEILLEJ’ai identifiĂ© une personne qui reprend souvent mes contenus et qui les publient sur son blog. J’ai son nom et son prĂ©nom, son profil Google+, ainsi que les citations qu’il a repris de mes discours (vous reconnaĂźtriez mon style …)

Pour l’instant, mon outil est en cours de dĂ©veloppement. Je pense qu’un outil d’identification d’auteurs, pour trouver les plagiats, les duplicate content, ou tout simplement retrouver l’auteur original d’un article, pourrait ĂȘtre trĂšs utile pour affiner les tris des informations lors d’un processus de veille, par exemple.

Qu’en pensez-vous ? Toute suggestion est la bienvenue en tout cas. Et si vous souhaitez en savoir plus, Ă©crivez-moi !

Bon courage à tous 🙂

VĂ©ronique Duong –

 

Publicités
2 commentaires

Laissez un petit mot Ă  AUTOVEILLE ;)

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez Ă  l'aide de votre compte WordPress.com. DĂ©connexion /  Changer )

Photo Google+

Vous commentez Ă  l'aide de votre compte Google+. DĂ©connexion /  Changer )

Image Twitter

Vous commentez Ă  l'aide de votre compte Twitter. DĂ©connexion /  Changer )

Photo Facebook

Vous commentez Ă  l'aide de votre compte Facebook. DĂ©connexion /  Changer )

w

Connexion Ă  %s

%d blogueurs aiment cette page :