archive

Traitement automatique des langues

Bonjour !

L’annĂ©e 2017 a bien avancĂ©, et touche Ă  son dernier trimestre. Qu’est-ce que le temps passe vite ! Il faut dĂšs Ă  prĂ©sent penser aux tendances SEO qui pourraient arriver en 2018. Personnellement, je crois Ă  quelques Ă©lĂ©ments qui semblent ĂȘtre les nouveaux piliers du SEO, voire du monde digital.

tendances-seo-2018-veronique-duong-autoveille

Sans plus tarder, voici mes prédictions SEO pour 2018 :

Le vidĂ©o marketing : il y a dĂ©jĂ  une forte tendance de dĂ©veloppement de cette activitĂ©, et avec le mobile qui se dĂ©veloppe et qui devient de plus en plus performant, je ne peux qu’ĂȘtre certaine que les vidĂ©os feront beaucoup parler d’elles prochainement.

La voice search : Google est un moteur de rĂ©ponse dĂ©sormais ! Avec Google Home, on a un petit assistant toujours Ă  cĂŽtĂ© de nous, et qui rĂ©pond quasiment trĂšs bien Ă  toutes nos questions. Cela me fait un peu peur, mais je pense qu’il sera pas mal utile, surtout si on n’est plus tout le temps devant nos PC (et smartphones !)

google-home-moteur-reponse-autoveille

Source : Gadgetsin – Google Home (version US)

L’automatisation de l’optimisation de contenu : les contenus des sites sont long Ă  extraire et Ă  optimiser, et personnellement, je crois fortement au fait qu’il est possible d’automatiser cela, et d’optimiser les contenus manuellement (il est prĂ©fĂ©rable) par la suite. Avec mon ami, nous sommes en pleine phase de recherche et dĂ©veloppement sur cela. On pourra vous en dire plus prochainement.

Le rĂ©sumĂ© automatique de textes : une activitĂ© qui me tient Ă©galement Ă  coeur car je suis ingĂ©nieure linguiste de formation. Je suis certaine que si on arrive Ă  mettre au point un systĂšme pour « crĂ©er », « rĂ©sumer » des textes semi-automatiquement, cela pourrait ĂȘtre une rĂ©volution dans le monde du SEO voire du web en gĂ©nĂ©ral … car une fois que le squelette d’un site est crĂ©Ă©, il faut bien le remplir correctement non ?

Le mobile : avec index mobile first, AMP, instant apps, etc. on a bien compris que le mobile est primordial pour la quasi majorité des pays dans le monde ! En Chine, les volumes de recherche sur mobile explosent par rapport à ceux qui proviennent des PC.

Les rĂ©seaux sociaux (et les backlinks) : ils vont avoir de plus en plus de force dans la communication digitale globale d’une marque. Ils envoient de forts signaux aux utilisateurs, et … c’est logique. Plus un site est vu, aimĂ©, repartagĂ©, plus cela veut dire qu’il est intĂ©ressant, bon, attirant, etc.

Pour moi, ce sont les tendances SEO voire digitales Ă  suivre pour l’avenir. Le SEO on-site devra toujours ĂȘtre fait correctement bien sĂ»r, mais il faut penser Ă  l’aspect moteur de rĂ©ponse, aux vidĂ©os, et Ă  l’automatisation de certaines Ă©tapes dans une stratĂ©gie SEO. C’est bien joli de parler d’analyse de logs, de crawl budget, mais ce n’est pas que ces Ă©lĂ©ments qui vont faire positionner un site.

La technique, c’est bien, mais de la bonne maintenance, c’est encore mieux !

Si vous avez des remarques, laissez un commentaire, ou tweetez 🙂

Bon courage Ă  tous !

VĂ©ronique Duong – Consultante SEO certifiĂ©e CESEO 2014

Publicités

Bonjour tout le monde !

Comme vous le savez tous, de formation, je suis ingĂ©nieure linguiste, et je suis autant passionnĂ©e par le TAL que par le SEO. Je dirais toujours que c’est le TAL qui m’a menĂ©e vers le SEO car j’ai vu le lien entre ces deux domaines dĂšs le dĂ©but : Linguistique x Informatique en TAL, et SĂ©mantique x Technique en SEO. Je me dĂ©finirais toujours comme une spĂ©cialiste du SEO et du Traitement Automatique des Langues. Il y a moins d’Ă©vĂ©nements sur le TAL que le SEO, et je trouve cela extrĂȘmement dommage car le TAL, la science du langage a tout le mĂ©rite de se faire connaĂźtre.

En TAL, on produit des outils, des scripts qui servent, qui sont utiles pour des expĂ©riences scientifiques, et cela permet de faire progresser la R&D pour beaucoup de choses. Typiquement, j’utilise mes compĂ©tences en TAL pour automatiser certaines phases super chronophages (nettoyage des textes, optimisation des mĂ©ta tags, etc.). autant que possible.

Pendant ce HackaTAL 2017 qui s’est dĂ©roulĂ© Ă  OrlĂ©ans, au Lab’O (incubateur de start-ups dans le numĂ©rique), on a eu droit Ă  quelques petites confĂ©rences d’entreprises spĂ©cialisĂ©es dans le TAL, telles que Recital (gĂ©nĂ©ration de rĂ©sumĂ© automatique), Mood Messenger, etc.

On avait des tùches trÚs précises à réaliser, et voici les consignes officielles :

TĂąches

1. Résumé automatique de commentaires sur des produits en ligne

Objectifs

Dans le cadre de la promotion de produits sur les plateformes en ligne, l’apprĂ©ciation peut ĂȘtre analysĂ©e Ă  partir des retours utilisateurs (User Generated Content). Ces derniers peuvent se prĂ©senter : notes, Ă©toiles, mais aussi avis et commentaires textuels. Les notes n’étant pas toujours en adĂ©quation avec les contenus textuels, de plus en plus d’acteurs cherchent Ă  qualifier l’opinion des utilisateurs et Ă  dĂ©terminer quels sont leurs arguments.

La thĂ©matique est orientĂ©e sur les avis et commentaires concernant l’offre de logements en rĂ©gion centre (particuliers, auberges, hĂŽtels, luxe, etc.). Il s’agira de construire un rĂ©sumĂ© automatique des commentaires, Ă  partir des arguments dĂ©tectĂ©s dans ces derniers, Ă  comparer aux notes et/ou Ă  la description. Ce rĂ©sumĂ© orientĂ© devra ĂȘtre sĂ©parĂ© en deux champs principaux : points positifs et points nĂ©gatifs sur des critĂšres communs : accueil, confort, services, propretĂ©, accessibilitĂ©, etc. D’autres champs peuvent ĂȘtre proposĂ©s par les participants selon les arguments extraits Ă  partir des commentaires.

Sous tĂąches

  • Traitement / dĂ©bruitage de donnĂ©es UGC
  • DĂ©tection et extraction d’arguments
  • AgrĂ©gation des valeurs par produits
  • DĂ©tection et rĂ©solution de contradictions
  • RĂ©sumĂ© automatique d’opinions sur les aspects

Données et évaluation

Collection de données représentant chaque produit en ligne (champs de description du produit, notes ou étoiles, liste des commentaires associés) en français et en anglais. Les données seront fournies sous-forme de corpus (pour le corpus collecté sur Internet) et/ou via des liens à télécharger (pour les données fournies par les partenaires, à préciser).

L’évaluation portera sur la capacitĂ© Ă  calculer automatiquement les scores pour chaque catĂ©gorie d’évaluation du produit (accueil, propretĂ©, emplacement, etc.). Pour chacun de ces scores, un argumentaire rĂ©sumĂ© automatiquement devra ĂȘtre fourni qui pourra faire l’objet d’évaluation qualitatives.

2. Identification des tendances stratégiques liées aux brevets

Objectifs

La stratĂ©gie de dĂ©pĂŽt de brevets par des entreprises ou des individus reprĂ©sente un enjeu considĂ©rable, qui a donnĂ© lieu Ă  des affaires mondialement connues (Apple vs Samsung, Microsoft vs Google). Cet outil juridique reste cependant difficilement accessible pour les entreprises de petite taille ou les individus. En particulier, il n’est pas Ă©vident de dĂ©terminer quelles technologies vont avoir tendance Ă  ĂȘtre l’objet de brevets, dans une optique de veille ou de prĂ©servation de la propriĂ©tĂ© intellectuelle.

La tĂąche proposĂ©e vise Ă  mieux modĂ©liser les mĂ©canismes qui permettent de prĂ©dire l’apparition de brevets pour des technologies en essor, par utilisation de mĂ©thodes d’IA et de TAL (terminologie et expressions multi-mots, catĂ©gorisation des brevets, Ă©volution des termes et des n-grams, prĂ©diction de tendances). L’objectif est de dĂ©terminer, au regard des donnĂ©es collectĂ©es sur des brevets (par ex. distribution des termes entre 2001 et 2009), quels brevets seront dĂ©posĂ©s (par ex. en 2010). Pour illustration : si “tactile” est recensĂ© avec une grande montĂ©e en 2010, pouvait-on prĂ©dire cette montĂ©e en exploitant les donnĂ©es de la dĂ©cennie prĂ©cĂ©dente ?

Sous tĂąches

  • PrĂ©traitement du langage et de la structure des brevets
  • Extraction de terminologies liĂ©es aux technologies
  • Comparaison des termes des brevets avec les sites technologiques
  • DĂ©tection de signaux faibles
  • Analyse et prĂ©diction de tendances

De mon cĂŽtĂ©, je me suis penchĂ©e sur le rĂ©sumĂ© automatique de commentaires sur des produits en ligne. J’ai dĂ©jĂ  eu des sujets similaires Ă  traiter, et je trouve cela plus concret et utilisable tout de suite derriĂšre (une fois que le script est prĂȘt, l’outil peut servir !! 🙂 ) On Ă©tait une Ă©quipe de 3 : deux dĂ©veloppeurs web et moi. La technologie utilisĂ©e Ă©tait du PHP, des Regex, de l’Ă©tiquetage de donnĂ©es, et la stratĂ©gie Ă©tait d’utiliser les mots ayant le plus de poids dans une phrase (adverbe, adjectifs, verbes). Avec cette mĂ©thode, on a eu un Rappel de prĂšs de 80% ! (Rappel = le nombre de documents correctement retrouvĂ© dans sa classe, PrĂ©cision = le nombre de documents correctement attribuĂ© dans sa classe (ex : pour le rappel, cela veut dire que le commentaire a bien Ă©tĂ© retrouvĂ© dans telle ou telle catĂ©gorie automatiquement, et la prĂ©cision correspond au fait si le commentaire est bien attribuĂ© positif / neutre / nĂ©gatif).

C’est mon Ă©quipe qui a gagnĂ© le HackaTAL 2017 !!! Je suis trĂšs contente que ma stratĂ©gie / rĂ©flexion marche (avec les ADJ, les ADV, etc.), et on s’est bien dĂ©brouillĂ© avec les dĂ©veloppeurs ! Un Grand MERCI Ă  Nicolas Le Flohic et Fanny Jan, mes co-Ă©quipiers.

hackatal 2017 - Ă©quipe Wild gagnante

Voici quelques clichés du HackaTAL 2017 :

La jolie photo de souvenirs devant le logo du Lab’O !

Présentations des projets de chaque équipe :

Ca code, ça code !! Prùs de 48 heures de scripting 😉

Toutes les Ă©quipes ont bien travaillĂ©es, et ce sont donnĂ©es Ă  200% !!! Un week-end intense avec de belles rencontres, des Ă©changes hyper intĂ©ressants, et … cela m’a redonnĂ©e une folle envie de me remettre dans le TAL !!

En tout cas, une chose est sĂ»r, la Science du Langage est une science qui a beaucoup d’avenir :

Je pense qu’il y a moyen qu’un jour, je retourne Ă  100% dans les Sciences du Langage, dans le Traitement Automatique des Langues. On verra ce que la vie me donnera !

J’espĂšre que cet article vous aura plu, il change un peu du SEO 😉

Un Ă©norme merci Ă  Damien Nouvel (ERTIM / INALCO), au Lab’O et tous ceux qui ont organisĂ© cet superbe Ă©vĂ©nement concret et intense !

Bon courage Ă  tous,

VĂ©ronique Duong – IngĂ©nieure Linguiste … avant tout 🙂 !

SEMRush est une sociĂ©tĂ© spĂ©cialisĂ©e dans l’optimisation des moteurs de recherche et le site Web des services de marketing des moteurs de recherche. SEMRush recueille gĂ©nĂ©ralement des informations relatives aux SERP de Google, telles que :

  • les informations relatives Ă  AdWords copie de la publicitĂ©
  • le classement dans les 80 millions de recherche par mot clĂ© de nom de domaine
  • le domaine des statistiques et des statistiques sur le volume de recherche par mot-clĂ© donnĂ©es statistiques
  • le nombre de rĂ©sultats de recherche, publicitĂ© pay per click

SEMRush peut s’avĂ©rer ĂȘtre un outil trĂšs utile pour l’Ă©tude des concurrents. Il faut quand mĂȘme avouer que ce dernier occupe une position centrale dans le marchĂ© du marketing en ligne, et surtout du SEO, et a Ă©galement aidĂ© de nombreux rĂ©fĂ©renceurs / commerçants Ă  comprendre comment optimiser le trafic de Google, rechercher des mots clĂ©s, faire de l’analyse concurrentielle, augmenter le trafic du site Web.

Avec l’aide de SEMRush, les utilisateurs peuvent trouver des mots clĂ©s pertinents et expressions-clĂ©s qui leurs correspondent. De plus, vous pouvez Ă©galement obtenir des informations relatives Ă  un mot-clĂ© particulier (volume de recherche, concurrence, trafic).

Vous pouvez le tester ci-dessous gratuitement, et l’acheter par la suite si cela vous convient :

SEMRUsh

Il y a des rĂ©fĂ©renceurs chinois qui connaissent l’outil, et ils regrettent qu’ils ne soient pas encore en chinois ! Peut ĂȘtre un nouvel marchĂ© d’attaque Ă  venir pour SEMRush ? A suivre … en tout cas, cela serait top pour tout le monde !

Bon courage Ă  tous !

VĂ©ronique Duong – Consultante SEO certifiĂ©e CESEO 2014

Bonjour tout le monde !

Dans cet article, je vais vous parler de l’importance de la veille en m’appuyant sur une infographie que mon systĂšme de veille a collectĂ© pendant son crawl. Maintenant, je fais beaucoup de SEO, et on me connaĂźt comme « Consultante SEO (Baidu) » que « Consultante en veille stratĂ©gique », alors que j’avais commencĂ© par ce mĂ©tier. J’ai appris le SEO toute seule, et grĂące Ă  ma veille informationnelle Ă  l’Ă©poque. Je me forme Ă©normĂ©ment grĂące aux informations pertinentes que je collecte, et c’est aussi comme ça que je me suis spĂ©cialisĂ©e sur Baidu, car j’ai vu qu’il y avait quelque chose Ă  faire entre le SEO, le TAL et la Chine !

Dans l’infographie ci-dessous, signĂ©e ARIST Bretagne et crĂ©Ă©e en 2013, on reprend des points essentiels de la veille et pourquoi il faut en faire en permanence, et lire les articles qui s’y trouvent. Cela demande du temps, et c’est pour ça qu’il faut avoir de bons outils de veille pour rĂ©duire la phase de tri d’articles et de contenus au maximum !

Voici les points et les objectifs principaux de la veille :

  • Anticiper les enjeux pour mieux dĂ©finir sa stratĂ©gie
  • Surveiller ses concurrents et les nouveaux
  • Être Ă  l’Ă©coute de ses clients
  • Trouver de nouveaux dĂ©bouchĂ©s et se diversifier

J’ajouterai aussi :

  • Se former et apprendre plus sur un domaine
  • Être pionnier en innovant
  • Montrer aux clients qu’on sait trouver l’information aux bons endroits

Cependant, il y a des freins qui empĂȘchent parfois d’avancer :

  • Le manque de temps (eh oui, veiller prend du temps !)
  • La transformation en leviers d’action
  • L’analyse et la synthĂšse des informations collectĂ©es

Je pense que pour y arriver, il faut vraiment se dĂ©gager au moins 1 Ă  2 heures par semaine pour faire de la veille. Ce n’est pas une perte de temps, mais quelque chose qui est totalement nĂ©cessaire pour toutes les boĂźtes.

l'importance de la veille stratégique et de l'intelligence économique - AUTOVEILLE

Si vous avez des questions sur la veille stratĂ©gique, les outils de veille, comment mettre en place un systĂšme de veille, etc. vous pouvez m’Ă©crire Ă  autoveille@gmail.com !

Bon courage Ă  tous,

VĂ©ronique Duong – Consultante SEO certifiĂ©e CESEO et Consultante en veille stratĂ©gique 🙂

Bonjour tout le monde,

Je viens de remarquer que je n’ai jamais postĂ© un article sur le KEI (Keyword Efficiency Index) qui permet de dĂ©terminer la pertinence finale d’un mot-clĂ© pour le SEO. Je ne vais pas aller par quatre chemins, mais aller directement droit au but.

Pour calculer le KEI, on doit faire ce calcul :

calcul-KEI-mesure-statistique-SEO - AUTOVEILLE

Voici un exemple concret pour illustrer la notion du KEI qui peut paraĂźtre un peu abstraite. Prenons l’exemple des montres de luxe, un domaine que je connais plutĂŽt bien maintenant, aprĂšs avoir travaillĂ© 3 ans et demi avec des clients de ce secteur.

Données pour le KEI :

Pour « montre de luxe », on a un volume de recherche de 8100 :

calcul du KEI mots-clés SEO - AUTOVEILLE

Et on a un nombre de pages indexées sur ce mot-clé de 8 960 000 :

calcul du KEI SEO - AUTOVEILLE

Calcul du KEI :

(8100 / 8 960 000) x 1000 = 0.90401785714

Interprétation du KEI :

Un bon mot-clé a un KEI entre 1 et 10 voire plus :

  • KEI<1 : Mot-clĂ© sans grand intĂ©rĂȘt
  • 1<10 : Bon mot-clĂ©
  • KEI>10 : Mot-clĂ© excellent

Ici, on a un mot-clĂ© qui va ĂȘtre difficile de se classer dessus car il est trĂšs concurrentiel et trĂšs gĂ©nĂ©rique. Cette mesure permet d’avoir une idĂ©e de la pertinence et de la difficultĂ© Ă  se positionner dessus dans les moteurs de recherche. Pour le moment, il y a peu d’outils qui calculent le KEI … mais j’ai ma mĂ©thode Ă  moi, grĂące Ă  un petit crawler fait-maison 😉 !

Sinon, pour vous présenter un outil payant qui fait aussi ce type de calcul, il y a Link Assistant, Rank Tracker : http://www.link-assistant.com/rank-tracker/

Si vous avez des questions sur le SEO Google, l’ingĂ©nierie linguistique, le SEO Baidu, etc. Ă©crivez moi Ă  autoveille@gmail.com !

Bon courage Ă  tous !

VĂ©ronique Duong – IngĂ©nieure Linguiste & Consultante SEO certifiĂ©e CESEO

Bonjour tout le monde !

Je ne pensais jamais vous parler du langage R sur ce blog ! Pour moi, R Ă©tait un outil que j’ai utilisĂ© en Master 2 d’IngĂ©nierie Linguistique, et que je ne m’en servirais pas pour le SEO ou le monde professionnel … eh bah non ! R est un outil pour calculer, gĂ©rer les statistiques, et il s’avĂšre trĂšs puissant et plus flexible que certains outils sur le marchĂ© !

J’ai mis en place une petite veille informationnelle pour voir les publications qui remontent sur R, et mon logiciel de veille a crawlĂ© une infographie sur les caractĂ©ristiques de R, et ça tombe parfaitement bien. L’illustration est signĂ©e IntelliPaat (agence digitale de big data et de e-learning indienne).

Pourquoi faut-il utiliser le langage R ?

  1. C’est Open-source et le logiciel couvre un large Ă©ventail de calculs statistiques
  2. Comparable et mĂȘme supĂ©rieur Ă  certains outils payants sur le marchĂ©
  3. Disponible pour Windows, Linux et Mac
  4. En plus des opĂ©rations statistiques, c’est une Konsole, donc un outil de programmation, qui automatise vos analyses et qui crĂ©e de nouvelles fonctions
  5. Structure de programmation orientée objet (POO)
  6. Les données sont enregistrées par session, donc pas besoin de les ressaisir à chaque fois
  7. Comme c’est un outil open-source, il y a une vague communautĂ© de statisticiens qui l’utilisent et qui sont prĂȘts Ă  vous aider

Voici l’infographie en question :

Langage R : les caractéristiques - SEO - AUTOVEILLE

J’ai retrouvĂ© mes cours de M2 sur R, et on s’en servait surtout pour calculer la frĂ©quence des mots-clĂ©s dans des corpus, on faisait des matrices, des graphes, etc. Voici un petit extrait d’un de mes exercices Ă  l’Ă©poque :

Langage R - Statistiques textuelles - AUTOVEILLE

Cela fait 5 ans que je n’en ai pas fait, mais je vais m’y remettre ! C’est un langage que je connais, et je ne veux pas laisser passer cette opportunitĂ© ! 🙂

Et vous ? programmez-vous en R ?

Si vous avez la moindre question sur le traitement automatique des langues, le SEO, l’automatisation de la veille stratĂ©gique, etc. Ă©crivez-moi Ă  autoveille@gmail.com

Bon courage Ă  tous !

VĂ©ronique Duong – Consultante SEO certifiĂ©e CESEO

 

Bonjour tout le monde,

En effectuant ma veille stratĂ©gique avec mon outil de veille automatique prĂ©fĂ©rĂ©, AUTOVEILLE, et en lisant des articles pour trouver des informations et des astuces pour amĂ©liorer ma façon de faire du SEO (encore et toujours), j’ai remarquĂ© 4 idĂ©es qui revenaient systĂ©matiquement pour optimiser le rĂ©fĂ©rencement. J’ai donc dĂ©cidĂ© de rĂ©diger cet article pour partager les conseils avec vous !

PremiĂšre idĂ©e : Faites attention Ă  Google Rankbrain, un nouvel algo qui est fortement liĂ© Google Hummingbird ! C’est un algorithme qui porte sur des « mĂ©thodes d’intelligence artificielle et d’apprentissage automatique ». Rankbrain traite dĂ©jĂ  15% des requĂȘtes reçues par Google au quotidien (source : Abondance). RĂ©digez des contenus Ă  forte qualitĂ© pour ĂȘtre dans les premiĂšres SERP de Google …

Google Rankbrain - SEO 2016 - AUTOVEILLE

DeuxiĂšme idĂ©e : Utilisez les mots-clĂ©s longue traĂźne pour optimiser vos contenus ! Plus vous ĂȘtes prĂ©cis, meilleur sera votre trafic 🙂

Mots-clés Longue Traine SEO 2016 - AUTOVEILLE

Source : WTM

TroisiÚme idée : Optimisez le SEO on-page de votre site et soignez les contenus (assez longs, bien rédigés, avec des mots-clés longue traßne, etc.)

Contenu est ROI - SEO 2016 - AUTOVEILLE

QuatriĂšme idĂ©e : Ayez des pages mobile-friendly qui se chargent rapidement ! TrĂšs important pour les mobinautes et les moteurs de recherche 🙂

Temps de chargement des pages mobile-friendly - SEO 2016 - AUTOVEILLE

VoilĂ , pour moi, ce sont les idĂ©es que j’ai lues et revues plusieurs fois sur le web ! Et j’ai sĂ©lectionnĂ© les plus pertinentes Ă  mon goĂ»t pour optimiser le SEO Ă  fond cette annĂ©e sur ces points. Qu’en pensez-vous ? N’hĂ©sitez pas Ă  partager votre avis dans les commentaires ou Ă  m’Ă©crire Ă  autoveille@gmail.com

Bon courage Ă  tous !

VĂ©ronique Duong – Consultante SEO certifiĂ©e CESEO

%d blogueurs aiment cette page :