archive

Archives de Tag: e-reputation

Bonjour tout le monde !

Comme vous le savez tous, de formation, je suis ingénieure linguiste, et je suis autant passionnée par le TAL que par le SEO. Je dirais toujours que c’est le TAL qui m’a menée vers le SEO car j’ai vu le lien entre ces deux domaines dès le début : Linguistique x Informatique en TAL, et Sémantique x Technique en SEO. Je me définirais toujours comme une spécialiste du SEO et du Traitement Automatique des Langues. Il y a moins d’événements sur le TAL que le SEO, et je trouve cela extrêmement dommage car le TAL, la science du langage a tout le mérite de se faire connaître.

En TAL, on produit des outils, des scripts qui servent, qui sont utiles pour des expériences scientifiques, et cela permet de faire progresser la R&D pour beaucoup de choses. Typiquement, j’utilise mes compétences en TAL pour automatiser certaines phases super chronophages (nettoyage des textes, optimisation des méta tags, etc.). autant que possible.

Pendant ce HackaTAL 2017 qui s’est déroulé à Orléans, au Lab’O (incubateur de start-ups dans le numérique), on a eu droit à quelques petites conférences d’entreprises spécialisées dans le TAL, telles que Recital (génération de résumé automatique), Mood Messenger, etc.

On avait des tâches très précises à réaliser, et voici les consignes officielles :

Tâches

1. Résumé automatique de commentaires sur des produits en ligne

Objectifs

Dans le cadre de la promotion de produits sur les plateformes en ligne, l’appréciation peut être analysée à partir des retours utilisateurs (User Generated Content). Ces derniers peuvent se présenter : notes, étoiles, mais aussi avis et commentaires textuels. Les notes n’étant pas toujours en adéquation avec les contenus textuels, de plus en plus d’acteurs cherchent à qualifier l’opinion des utilisateurs et à déterminer quels sont leurs arguments.

La thématique est orientée sur les avis et commentaires concernant l’offre de logements en région centre (particuliers, auberges, hôtels, luxe, etc.). Il s’agira de construire un résumé automatique des commentaires, à partir des arguments détectés dans ces derniers, à comparer aux notes et/ou à la description. Ce résumé orienté devra être séparé en deux champs principaux : points positifs et points négatifs sur des critères communs : accueil, confort, services, propreté, accessibilité, etc. D’autres champs peuvent être proposés par les participants selon les arguments extraits à partir des commentaires.

Sous tâches

  • Traitement / débruitage de données UGC
  • Détection et extraction d’arguments
  • Agrégation des valeurs par produits
  • Détection et résolution de contradictions
  • Résumé automatique d’opinions sur les aspects

Données et évaluation

Collection de données représentant chaque produit en ligne (champs de description du produit, notes ou étoiles, liste des commentaires associés) en français et en anglais. Les données seront fournies sous-forme de corpus (pour le corpus collecté sur Internet) et/ou via des liens à télécharger (pour les données fournies par les partenaires, à préciser).

L’évaluation portera sur la capacité à calculer automatiquement les scores pour chaque catégorie d’évaluation du produit (accueil, propreté, emplacement, etc.). Pour chacun de ces scores, un argumentaire résumé automatiquement devra être fourni qui pourra faire l’objet d’évaluation qualitatives.

2. Identification des tendances stratégiques liées aux brevets

Objectifs

La stratégie de dépôt de brevets par des entreprises ou des individus représente un enjeu considérable, qui a donné lieu à des affaires mondialement connues (Apple vs Samsung, Microsoft vs Google). Cet outil juridique reste cependant difficilement accessible pour les entreprises de petite taille ou les individus. En particulier, il n’est pas évident de déterminer quelles technologies vont avoir tendance à être l’objet de brevets, dans une optique de veille ou de préservation de la propriété intellectuelle.

La tâche proposée vise à mieux modéliser les mécanismes qui permettent de prédire l’apparition de brevets pour des technologies en essor, par utilisation de méthodes d’IA et de TAL (terminologie et expressions multi-mots, catégorisation des brevets, évolution des termes et des n-grams, prédiction de tendances). L’objectif est de déterminer, au regard des données collectées sur des brevets (par ex. distribution des termes entre 2001 et 2009), quels brevets seront déposés (par ex. en 2010). Pour illustration : si “tactile” est recensé avec une grande montée en 2010, pouvait-on prédire cette montée en exploitant les données de la décennie précédente ?

Sous tâches

  • Prétraitement du langage et de la structure des brevets
  • Extraction de terminologies liées aux technologies
  • Comparaison des termes des brevets avec les sites technologiques
  • Détection de signaux faibles
  • Analyse et prédiction de tendances

De mon côté, je me suis penchée sur le résumé automatique de commentaires sur des produits en ligne. J’ai déjà eu des sujets similaires à traiter, et je trouve cela plus concret et utilisable tout de suite derrière (une fois que le script est prêt, l’outil peut servir !! 🙂 ) On était une équipe de 3 : deux développeurs web et moi. La technologie utilisée était du PHP, des Regex, de l’étiquetage de données, et la stratégie était d’utiliser les mots ayant le plus de poids dans une phrase (adverbe, adjectifs, verbes). Avec cette méthode, on a eu un Rappel de près de 80% ! (Rappel = le nombre de documents correctement retrouvé dans sa classe, Précision = le nombre de documents correctement attribué dans sa classe (ex : pour le rappel, cela veut dire que le commentaire a bien été retrouvé dans telle ou telle catégorie automatiquement, et la précision correspond au fait si le commentaire est bien attribué positif / neutre / négatif).

C’est mon équipe qui a gagné le HackaTAL 2017 !!! Je suis très contente que ma stratégie / réflexion marche (avec les ADJ, les ADV, etc.), et on s’est bien débrouillé avec les développeurs ! Un Grand MERCI à Nicolas Le Flohic et Fanny Jan, mes co-équipiers.

hackatal 2017 - équipe Wild gagnante

Voici quelques clichés du HackaTAL 2017 :

La jolie photo de souvenirs devant le logo du Lab’O !

Présentations des projets de chaque équipe :

Ca code, ça code !! Près de 48 heures de scripting 😉

https://twitter.com/eldams/status/878903996307693569

https://twitter.com/eldams/status/878902768886579200

Toutes les équipes ont bien travaillées, et ce sont données à 200% !!! Un week-end intense avec de belles rencontres, des échanges hyper intéressants, et … cela m’a redonnée une folle envie de me remettre dans le TAL !!

En tout cas, une chose est sûr, la Science du Langage est une science qui a beaucoup d’avenir :

Je pense qu’il y a moyen qu’un jour, je retourne à 100% dans les Sciences du Langage, dans le Traitement Automatique des Langues. On verra ce que la vie me donnera !

J’espère que cet article vous aura plu, il change un peu du SEO 😉

Un énorme merci à Damien Nouvel (ERTIM / INALCO), au Lab’O et tous ceux qui ont organisé cet superbe événement concret et intense !

Bon courage à tous,

Véronique Duong – Ingénieure Linguiste … avant tout 🙂 !

Bonjour tout le monde !

Cela fait longtemps que je n’ai pas écrit d’articles sur la e-réputation ou l’identité numérique (entre SEO, veille automatique, traitement automatique des langues, il faut un peu d’organisation …) ! Et grâce à l’illustration trouvée par mon logiciel de veille, je vais pouvoir me relancer rapidement sur le sujet.

Pour les personnes ou les entreprises possédant une Page Facebook, il est intéressant de l’optimiser le plus possible pour avoir une image numérique solide, et pour montrer que vos activités évoluent (postez souvent, proposez des événements, attirez les gens, etc.)

Et afin d’optimiser une Page Facebook pour le Graph Search, il y a quelques astuces qui permettent de le faire plus « facilement », comme :

  • Choisir la bonne catégorie (^^)
  • Bien remplir les coordonnées de l’entreprise
  • Compléter totalement le profil, les descriptions
  • Renseigner l’essentiel des informations (services, gammes de produits, etc.)
  • Mettre des mots-clés dans les descriptions (qui sont destinées aux utilisateurs de FB)
  • Obtenir le plus de « Like » possible (c’est un des facteurs de classements de pages … apparemment)
  • Poster régulièrement des photos, des vidéos, etc.

L’infographie ci-dessous, réalisée par RightOn – NoBull, propose quelques astuces très intéressantes à prendre en considération :

Optimiser sa page Facebook pour le Graph Search - AUTOVEILLE

Parlant d’e-réputation, je suis actuellement en train de lire et d’analyser une étude sur l’analyse des sentiments et de son automatisation, et j’avoue que c’est un domaine qui m’intéresse énormément. Je m’étais lancé dans la création d’un petit algorithme pour automatiser la catégorisation, mais toute seule, c’est assez « difficile », sachant que dépendant des sujets, on peut avoir des « tonnes » de commentaires à analyser. Mais, c’est une affaire à suivre 😉

Bon courage à tous !

Véronique Duong –

Bonjour à tous !

Vous ne trouvez pas qu’il commence à refaire froid ? L’été est fini ! Et pour lui dire à l’année prochaine, j’ai trouvé une petite infographie sur les stratégies de communication des marques de glace sur les réseaux sociaux ! Merci à ma veille automatique et à mon logiciel de veille … je pense que manuellement, je ne serais jamais tombée sur cette infographie rigolote ! 🙂

C’est parti pour la bataille givrée !

Ben & Jerry’s semble être le champion en termes de communication sociale / digitale en ligne !

EDIT : Un bon buzz ! Des glaces gratuites offertes par Ben & Jerry’s en mai 2013

Une e-réputation se construit sur le long terme (le temps de se faire connaître, de promouvoir services et produits, de les vendre, d’avoir des témoignages et des avis, etc.)

Cette illustration a été réalisée par TrackMaven

Infographie réseaux sociaux Stratégies communications digitales AUTOVEILLE

Etudier la stratégie de vos concurrents peut vous aider à comprendre les points à travailler. Augmentez votre visibilité (et vos ventes) grâce aux réseaux sociaux : promotions concrètes (il ne faut pas que les internautes aient une impression d’arnaques ou de publicités mensongères …), buzz, événements, soirées, etc.

Bon courage à tous !

Véronique D. –

Bonjour à tous !

Ce week-end pour changer un peu des veilles automatiques d’infographies avec AUTOVEILLE, mon logiciel de veille, je vous propose de découvrir un outil que je suis en train de développer pour identifier automatiquement les auteurs et les sources des articles.

Avec la big data, la curation, les partages sur les divers médias sociaux et l’infobésité, parfois, on ne sait plus qui est l’auteur original d’un article ou d »une information. J’ai donc décidé (et surtout tenté) de développer un nouvel outil pour extraire les auteurs et le maximum de sources pour retrouver le créateur de l’article parmi une base de fichiers HTML que j’aurais collectés au préalable avec … AUTOVEILLE corpus.

Dans mon algorithme, j’y ai mis plusieurs règles pour pouvoir extraire un maximum d’éléments sur les auteurs. De ce fait, mon outil pourrait également être utilisé dans l’extraction des « auteurs-copieurs » d’articles, les plagiats et le duplicate content …

Voici un cas de figure que je suis en train d’étudier :

Je recherche sur le web si on m’a copié avec Google. Je copie/colle un extrait d’un de mes articles entre  »  »  dans le moteur de recherche.

Ensuite, j’aspire automatiquement toutes les pages qui contiennent cet extrait.

Puis, je télécharge les liens de ces pages sous forme de fichiers .html. Cela me crée une base.

Et au final, je lance mon algorithme d’identification d’auteurs, et je découvre qui sont les auteurs qui ont repris mes contenus …

Voici un extrait de mon code source :

Outil extraction d'auteurs automatique big data AUTOVEILLEVoici ce que j’obtiens en résultats :

Résultats extraction automatique d'auteurs AUTOVEILLEJ’ai identifié une personne qui reprend souvent mes contenus et qui les publient sur son blog. J’ai son nom et son prénom, son profil Google+, ainsi que les citations qu’il a repris de mes discours (vous reconnaîtriez mon style …)

Pour l’instant, mon outil est en cours de développement. Je pense qu’un outil d’identification d’auteurs, pour trouver les plagiats, les duplicate content, ou tout simplement retrouver l’auteur original d’un article, pourrait être très utile pour affiner les tris des informations lors d’un processus de veille, par exemple.

Qu’en pensez-vous ? Toute suggestion est la bienvenue en tout cas. Et si vous souhaitez en savoir plus, écrivez-moi !

Bon courage à tous 🙂

Véronique Duong –

 

Bonjour à tous !

Juste un petit article très rapide pour vous rappeler que vous pouvez retrouver AUTOVEILLE, outil de veille automatique et d’automatisation sur les médias sociaux suivants:

Linkedin: http://www.linkedin.com/in/veroniqueduong

Twitter: https://twitter.com/veroduong

Google+: https://plus.google.com/116862245349529851498/posts

NOUVEAU !! >> Facebook: https://www.facebook.com/pages/AUTOVEILLE/568073609912021

Hellocoton: http://www.hellocoton.fr/mapage/autoveille

Une présence professionnelle et sérieuse sur les réseaux sociaux est un vrai bonus pour la e-réputation et la e-apparence d’une entreprise. N’hésitez pas à modérer et à gérer vos profils très régulièrement pour éviter qu’il y ait des commentaires négatifs (insultes, racistes, hors sujets, etc.) sur vos profils.

Les réseaux sociaux sont des plateformes (pour la plupart) gratuites et pratiques pour faire du marketing, faire la promotion de votre marque, de vos produits, de vos services.

En tout cas, si vous aimez les conseils et/ou les astuces que je donne sur la veille automatique, sur les logiciels de veille, sur le référencement naturel (SEO), sur la linguistique, ou si vous avez des suggestions, n’hésitez pas à vous manifester sur l’un de mes médias sociaux !

Vous pouvez liker, googleplusser, tweetter, linkedin-er, hellocoton-er !! Au choix 😉

icônes des réseaux sociaux

Bon courage !

Véronique Duong –

 

Bonjour tout le monde !

Aujourd’hui, je vous propose un article avec quelques conseils sur l’optimisation du SEO d’un site. Faire du SEO, c’est bon pour la santé du site, mais faire trop de SEO, c’est mauvais. Comme tout excès me diriez-vous. On appelle cela de la sur-optimisation, et il faut éviter même si on est tenté de faire cela pour arriver sur la 1ere SERP.

1) Utilisez les termes et la phraséologie de votre client. Cela est très important pour l’image de la marque. Si votre client veut se positionner sur quelques expressions moins recherchées mais qui relèvent de leurs domaines, il faut les utiliser.

2) Employez systématiquement les noms des produits ou des services de votre client. Il ne faut pas modifier les appellations car cela peut également « altérer » à l’image de la marque.

3) Ne mettez pas tout le temps le même mot-clé dans les pages. Il faut varier, utiliser des synonymes, des expressions plus longues ou plus courtes qui veulent dire la même chose. Il faut que le vocabulaire soit le plus riche possible.

4) Ne faites pas de sur-optimisation. Cela ne va pas améliorer votre visibilité, au contraire.

5) Optimisez normalement, en produisant très souvent du contenu de qualité, et mettez les pages en ligne par « petit lot ».

6) Evitez de mettre 10000 pages en ligne d’un coup. Les moteurs de recherche vont trouver cela très suspect.

Après avoir optimisé, soyez patient. Le SEO, c’est un processus sur le long terme. Il faut laisser le temps aux moteurs de recherche de trouver les pages, de crawler, d’indexer, de classer, etc. De temps en temps, il faut laisser la « magie » des moteurs de recherche agir.

Bon courage !

Véronique Duong –

Bonjour tout le monde !

Je vous ai préparé un nouvel article sur les problématiques d’e-réputation et de SEO. Récemment, dans un autre billet, je vous parlais de nettoyage de sa e-réputation sur le web, et aujourd’hui, je vais plutôt vous parler des premiers résultats de recherche Google.

En effet, lorsqu’un internaute tape une marque (qu’il connait plus ou moins), un nom, ou encore un produit dans Google, et s’il tombe sur des remarques, des critiques, des contenus donnant une image négative, cela peut réellement influencer ce dernier sur ses choix (d’acheter le produit ou le service, par exemple).

J’ai effectué divers tests de référencement naturel appliqués à des problématiques d’e-réputation, et il s’avère qu’il faut absolument maintenir à jour son site web ou ses comptes sur les réseaux sociaux avec des contenus riches et intéressants pour toujours afficher une image clean (et pro) dans les SERP 🙂

Par exemple, lorsqu’on tape « logiciel veille automatique » ou « outil veille automatique« , AUTOVEILLE occupe toutes les positions au dessus de la ligne de flottaison.

Avec l’expression « logiciel veille automatique« , AUTOVEILLE occupe 9 positions sur 10 sur la 1ere SERP de Google:

logiciel veille automatique

De même pour la requête « outil veille automatique« :

outil veille automatique AUTOVEILLE

En outre, je pense que vous n’en doutez pas, mais lorsqu’on tape ma marque AUTOVEILLE, j’occupe également 9 positions sur 10 sur la 1ere SERP Google.

Avec ces exemples, vous pouvez donc constater que le référencement naturel joue un rôle primordial dans votre maîtrise de la e-réputation. Pensez-y !

Bon courage !

Véronique Duong –

Bonjour tout le monde !

Hier, je vous ai montré comment faire une veille automatique et une collecte sur des tweets. Aujourd’hui, je reviens avec un article sur une veille automatisée et l’extraction des commentaires dans les publications sur les médias traditionnels ou les blogs et/ou les forums.

Les commentaires sont également des verbatims intéressants à étudier pour  l’e-réputation ou l’analyse d’opinions. En effet, c’est souvent dans ces derniers que les internautes expriment leurs pensées et leurs opinions sur un sujet.

Voici rapidement comment je fais pour collecter efficacement et rapidement des commentaires:

1) J’utilise AUTOVEILLE Monitoring et AUTOVEILLE Corpus pour faire ma collecte automatique (si vous voulez en savoir plus sur ces outils, je vous invite à aller sur mon site ou à m’écrire).

Exemple > Extraction des commentaires ci-dessous:

commentaires Figaro

2) Mes robots récupérent les commentaires au format HTML, et je fais une extraction de ces derniers dans un autre format exploitable par la plupart des outils de traitement automatique

Exemple > Les commentaires affichés dans ma Konsole (qui nécessitent bien évidemment encore quelques nettoyages)

commentaires-figaro-2

3)  Le corpus de commentaires extraits (à titre d’exemple)

Corpus et collecte de commentaires / verbatims

Chaque collecte pour créer un corpus de commentaires est étudié et personnalisé parce que chaque site ne présente pas les choses de la même façon. Il faut donc des outils adaptables pour rapatrier un maximum de verbatims.

 

N’hésitez pas à me donner vos avis, vos idées ou à m’écrire si vous voulez en savoir plus 🙂

Bon courage –

Véronique Duong

Bonjour à tous,

Comme on me le demande souvent, j’ai décidé de faire un article pour vous montrer comment faire une veille automatique ainsi qu’une collecte automatique des tweets depuis Twitter.

Pour cela, je développe un script Perl pour chaque crawl. C’est à dire que j’adapte mes crawls en fonction du type d’éléments à crawler. Récupérer des tweets est différent de récupérer des pages web par exemple.

A partir d’une recherche de tweets par #hashtag, mot-clé ou expressions clés, j’en crée un flux RSS que je passe sous AUTOVEILLE. Ensuite, mon logiciel de veille collecte les tweets au format XML, et je traite ce XML au format demandé par le client.

Voici un exemple d’un tweet au format XML:

collecte automatique de tweets

Avec quelques lignes de commandes Bash (Shell), je récupère uniquement les liens vers mes tweets collectés:

collecte automatique de tweets

Encore un peu de nettoyage automatique pour retirer les balises link

tweets collectés

Voilà, avec cette collecte, vous pouvez sauvegarder vos précieux tweets. Pour les afficher, il suffit de les repasser au format XML ou HTML. En repassant au format HTML, on obtient des tweets dans ce format:

tweet-format-html

J’adapte chaque veille / chaque collecte au cas par cas comme vous pouvez le constater.

Bon courage !

Véronique Duong –

Bonjour à tous !

Dernièrement, je vous parlais souvent d’e-réputation. Dans un de mes articles précédents, je vous ai donné quelques pistes pour nettoyer votre réputation web si jamais elle a été « endommagée » par des verbatims à votre encontre.

Et aujourd’hui, dans cet article, je vais vous donner quelques astuces pour mettre en place une identité numérique solide et à long terme sur la première page Google.

1) Lorsqu’on tape votre marque ou votre nom, on doit vous trouver en 1er. Pour cela, il faut employer une sacré stratégie de SEO en produisant plus de contenus de qualité avec comme mot-clé principal, votre marque ou votre nom, et en trouvant des backlinks de qualité (sur les sites connus par exemple)

2) Que vous soyez un particulier, une entreprise ou autre, ayez un profil Linkedin complétement rempli et clair. Cela est très important.

3) Si vous avez un site, je vous conseille de créer un profil Google + si ce n’est pas encore fait (!). Dans le monde du référencement, on parle beaucoup du critère de l’Author Rank qui serait un futur facteur de ranking pour Google. Après avoir créé votre profil, liez ce dernier aux pages web de votre site.

4) Ayez un blog où vous pouvez produire souvent et dynamiser vos contenus en proposant des mises à jour, des nouveautés, etc. Innovez sans cesse. Les gens aiment tout ce qui est original.

5) Faites attention à ce que vous postez sur le web, surtout si vous signez avec votre marque et / ou votre nom.

6) Faites de la veille sur vous, votre marque, vos thématiques, etc.

Il y a encore d’autres astuces, mais ce sont les principales des principales à appliquer pour commencer tranquillement 🙂

E-réputation et identité numérique

E-réputation et identité numérique

 

Bon courage !

Véronique Duong