Bonjour à tous !
Ce week-end pour changer un peu des veilles automatiques d’infographies avec AUTOVEILLE, mon logiciel de veille, je vous propose de découvrir un outil que je suis en train de développer pour identifier automatiquement les auteurs et les sources des articles.
Avec la big data, la curation, les partages sur les divers médias sociaux et l’infobésité, parfois, on ne sait plus qui est l’auteur original d’un article ou d »une information. J’ai donc décidé (et surtout tenté) de développer un nouvel outil pour extraire les auteurs et le maximum de sources pour retrouver le créateur de l’article parmi une base de fichiers HTML que j’aurais collectés au préalable avec … AUTOVEILLE corpus.
Dans mon algorithme, j’y ai mis plusieurs règles pour pouvoir extraire un maximum d’éléments sur les auteurs. De ce fait, mon outil pourrait également être utilisé dans l’extraction des « auteurs-copieurs » d’articles, les plagiats et le duplicate content …
Voici un cas de figure que je suis en train d’étudier :
Je recherche sur le web si on m’a copié avec Google. Je copie/colle un extrait d’un de mes articles entre » » dans le moteur de recherche.
Ensuite, j’aspire automatiquement toutes les pages qui contiennent cet extrait.
Puis, je télécharge les liens de ces pages sous forme de fichiers .html. Cela me crée une base.
Et au final, je lance mon algorithme d’identification d’auteurs, et je découvre qui sont les auteurs qui ont repris mes contenus …
Voici un extrait de mon code source :
Voici ce que j’obtiens en résultats :
J’ai identifié une personne qui reprend souvent mes contenus et qui les publient sur son blog. J’ai son nom et son prénom, son profil Google+, ainsi que les citations qu’il a repris de mes discours (vous reconnaîtriez mon style …)
Pour l’instant, mon outil est en cours de développement. Je pense qu’un outil d’identification d’auteurs, pour trouver les plagiats, les duplicate content, ou tout simplement retrouver l’auteur original d’un article, pourrait être très utile pour affiner les tris des informations lors d’un processus de veille, par exemple.
Qu’en pensez-vous ? Toute suggestion est la bienvenue en tout cas. Et si vous souhaitez en savoir plus, écrivez-moi !
Bon courage à tous 🙂
Véronique Duong –
J’aime ça :
J’aime chargement…