archive

Archives de Tag: Infobésité

Bonjour tout le monde !

En effectuant ma veille informationnelle du jour avec mon logiciel de veille automatique, je suis tombée sur une petite animation très sympathique que j’ai envie de partager avec vous : Internet en temps réel !

Le nombre de données générées par seconde est simplement impressionnant. Par exemple pour Linkedin, à chaque seconde accumulée, les recherches sont pratiquement doublées. Au fur et à mesure des années, le Big Data va devenir une vraie problématique à traiter au vu du nombre d’informations produites par seconde. L’infobésité n’est pas prête de s’arrêter !

Ce GIF a été trouvé sur le site Search Engine Watch.

Le web en temps réel 2015 - AUTOVEILLE

Traitez-vous des projets liés au Big Data ? Pensez-vous que cette génération massive de données peut être un réel problème pour l’avenir (bruit, informations dupliquées, informations de mauvaise qualité, etc.) ? Auriez-vous des moyens pour « lutter » contre les points mentionnés ?

N’hésitez pas à laisser vos impressions et vos commentaires dans l’espace ci-dessous. Cela serait très intéressant de partager sur le sujet !

Bon courage à tous !

Véronique Duong – autoveille@gmail.com

Bonjour à tous !

Ce week-end pour changer un peu des veilles automatiques d’infographies avec AUTOVEILLE, mon logiciel de veille, je vous propose de découvrir un outil que je suis en train de développer pour identifier automatiquement les auteurs et les sources des articles.

Avec la big data, la curation, les partages sur les divers médias sociaux et l’infobésité, parfois, on ne sait plus qui est l’auteur original d’un article ou d »une information. J’ai donc décidé (et surtout tenté) de développer un nouvel outil pour extraire les auteurs et le maximum de sources pour retrouver le créateur de l’article parmi une base de fichiers HTML que j’aurais collectés au préalable avec … AUTOVEILLE corpus.

Dans mon algorithme, j’y ai mis plusieurs règles pour pouvoir extraire un maximum d’éléments sur les auteurs. De ce fait, mon outil pourrait également être utilisé dans l’extraction des « auteurs-copieurs » d’articles, les plagiats et le duplicate content …

Voici un cas de figure que je suis en train d’étudier :

Je recherche sur le web si on m’a copié avec Google. Je copie/colle un extrait d’un de mes articles entre  »  »  dans le moteur de recherche.

Ensuite, j’aspire automatiquement toutes les pages qui contiennent cet extrait.

Puis, je télécharge les liens de ces pages sous forme de fichiers .html. Cela me crée une base.

Et au final, je lance mon algorithme d’identification d’auteurs, et je découvre qui sont les auteurs qui ont repris mes contenus …

Voici un extrait de mon code source :

Outil extraction d'auteurs automatique big data AUTOVEILLEVoici ce que j’obtiens en résultats :

Résultats extraction automatique d'auteurs AUTOVEILLEJ’ai identifié une personne qui reprend souvent mes contenus et qui les publient sur son blog. J’ai son nom et son prénom, son profil Google+, ainsi que les citations qu’il a repris de mes discours (vous reconnaîtriez mon style …)

Pour l’instant, mon outil est en cours de développement. Je pense qu’un outil d’identification d’auteurs, pour trouver les plagiats, les duplicate content, ou tout simplement retrouver l’auteur original d’un article, pourrait être très utile pour affiner les tris des informations lors d’un processus de veille, par exemple.

Qu’en pensez-vous ? Toute suggestion est la bienvenue en tout cas. Et si vous souhaitez en savoir plus, écrivez-moi !

Bon courage à tous 🙂

Véronique Duong –

 

%d blogueurs aiment cette page :