archive

Traitement automatique des langues

Bonjour tout le monde !

SI vous suivez mon blog depuis un moment, vous savez certainement que je suis ingénieure linguiste de formation, et je suis méga sensible aux évolutions dans le monde du traitement automatique des langues !

L’an passĂ©, j’ai fait le HackaTAL sur l’analyse d’opinions, et cela m’a rappelĂ© beaucoup d’Ă©tudes et d’analyses que je faisais en Master 2 ! C’Ă©tait gĂ©nial, j’ai adorĂ© 🙂 Et pour cause, c’Ă©tait mon Ă©quipe, Wild, qui avait gagnĂ© le HackaTAL 2017 !

Cette annĂ©e, le HackaTAL revient sur un sujet qui a Ă©tĂ© d’actualitĂ© : les Fake News !

fake-news-autoveille-veroduong-SEO

Je vous laisse découvrir le programme ci-dessous :

Description

Dans le cadre de la confĂ©rence TALN-RECITAL 2018, sera organisĂ© un hackathon, la troisiĂšme Ă©dition cĂŽtĂ© CORIA (Hack Days) et TALN (HackaTAL) et sera dĂ©diĂ© Ă  des problĂ©matiques liĂ©es Ă  la RI et au TAL. L’objectif est de rĂ©unir ces communautĂ©s autour de dĂ©fis Ă  relever Ă  l’aide de donnĂ©es et briques logicielles, en consacrant ces journĂ©es Ă  modĂ©liser, prototyper, coder, expĂ©rimenter, dĂ©velopper, tester, Ă©valuer, comparer, Ă©changer, etc. – par Ă©quipes et dans une ambiance dĂ©contractĂ©e 🙂

Les tĂąches proposĂ©es cette annĂ©e seront centrĂ©es sur la dĂ©tection et le traitement des fake news (Ă  prĂ©ciser), en interaction avec le monde des mĂ©dias et les journalistes. L’évĂ©nement est ouvert Ă  tous, ne nĂ©cessite pas de prĂ©paration particuliĂšre (sauf d’amener sa machine) et ne requiert pas de compĂ©tences spĂ©cifiques aux tĂąches que nous proposons : tout le monde est bienvenu !
TĂąches

Quelques questions parmi celles évoquées :

peut-on caractériser le langage des fake news point de vue linguistique ?
peut-on évaluer une échelle sur laquelle placer un article quant à sa vérifiabilité ?
peut-on catégoriser des articles, par exemple dans les classes suivantes : fiables / parodiques / orientés / douteux (cf Datapol Science Po) ?
comment assister au mieux un journaliste dans sa tĂąche de debunking ?
est-il possible d’utiliser des sources d’informations telles que twitter (contenu) ou bien le web (graphe des liens) pour repĂ©rer les fake news ?

Pour en savoir plus, je vous invite à aller sur le site du Hackathon : https://hackatal.github.io/2018/

Je pense m’y inscrire pour cette session car j’ai trĂšs envie de me pencher sur le sujet des Fake news aussi !

Bon courage Ă  tous !

VĂ©ronique Duong – Consultante SEO certifiĂ©e CESEO / IngĂ©nieure Linguiste / Directrice associĂ©e @Rankwell

Publicités

Bonjour Ă  tous !

Je vais vous proposer une petite sĂ©rie d’interviews d’experts en ingĂ©nierie linguistique, qui pour moi, est complĂštement corrĂ©lĂ©e au SEO / rĂ©fĂ©rencement naturel ! J’ai l’honneur de commencer cette sĂ©rie avec Damien Nouvel, maĂźtre de confĂ©rences Ă  l’INALCO, et qui allait devenir mon directeur de thĂšses (mais Ă  la place, j’ai publiĂ© deux bouquins ! car on ne fait pas les choses Ă  moitiĂ© ici ;)) !

C’est parti pour l’interview :

PrĂ©sentation de l’expert TAListe :

Je suis maĂźtre de confĂ©rences Ă  l’Inalco, membre du laboratoire ERTIM. J’y travaille dans le domaine du traitement automatique des langues (TAL), en particulier sur la fouille de donnĂ©es textuelles et le multilinguisme pour une large variĂ©tĂ© de langues (occidentales et orientales) et pour des objectifs variĂ©s (translittĂ©ration, dĂ©sambiguisation lexicale, opinion, analyse textomĂ©trique, etc.). J’ai prĂ©cĂ©demment travaillĂ© au LIMSI-CNRS (extraction d’information), Ă  INRIA Alpage (mots hors-vocabulaire dans les fils de dĂ©pĂȘches). Ma thĂšse, faite dans l’équipe BDTLN du LI de Tours, a portĂ© sur la reconnaissance automatique des entitĂ©s nommĂ©es (disons les noms propres), par d’extraction automatique de motifs sĂ©quentiels (de la fouille de donnĂ©es).

Comment définirais-tu la notion de TF-IDF ?

Le TF-IDF est une mĂ©thode historique, fondĂ©e dans les annĂ©es 80, pour implĂ©menter des outils de recherche d’information. L’exemple typique est le moteur de recherche, qui doit sĂ©lectionner les documents les plus pertinents pour une requĂȘte donnĂ©e. Une simple recherche boolĂ©enne dans les index donne trop de rĂ©sultats, qui ne sont pas ordonnĂ©s. L’algorithme TF-IDF pallie cela en exploitant simultanĂ©ment le nombre d’occurrences des termes (TF) et leur importance sĂ©mantique dans la collection de documents (IDF) pour ordonner les rĂ©sultats, et prĂ©senter en haut de la liste ceux qu’un calcul statistique simple nous indique ĂȘtre les plus pertinents. D’autres algorithmes sont aujourd’hui plus performants, mais celui-ci reste fondateur car il est trĂšs fiable, solide et stable : il peut ĂȘtre implĂ©mentĂ© facilement et constitue un excellent point de dĂ©part.

tfidf-interview-damien-nouvel-autoveille

Et pour le Rappel et la Précision ?

Pour expliquer ces deux mesures de qualitĂ© de rĂ©sultats (par exemple pour un moteur de recherche), il faut faire appel Ă  deux notions complĂ©mentaires : le silence et le bruit. Le rappel indique Ă  quel point un algorithme donne tous les rĂ©sultats attendus, sinon on dit qu’il y a du silence. La prĂ©cision calcul la proportion de rĂ©sultats ramenĂ©s sont pertinents, ceux qui ne le sont pas donnent du bruit. Le dĂ©fi, en particulier en recherche d’information, est de trouver le meilleur compromis possible : il faut Ă  la fois amĂ©liorer la prĂ©cision et le rappel, ou, dit autrement, rĂ©duire le bruit et le silence ! Pour mesurer cela globalement, il existe une troisiĂšme mĂ©trique qui combine le rappel et la prĂ©cision, que l’on appelle la F-mesure, qui est la moyenne (harmonique) des deux prĂ©cĂ©dentes. Ceci dit, dans le domaine de la recherche d’information, si ces mesures restent valables, elles sont aujourd’hui moins utilisĂ©es au profit d’autres mĂ©triques plus adaptĂ©es.

Dans quels cas utilises-tu le TF-IDF ? et pourquoi ?

Le TF-DIF est implĂ©mentĂ© dans de trĂšs nombreux langages sous forme de librairies, il nĂ©cessite trĂšs peu de programmation pour son implĂ©mentation et des ressources limitĂ©es (temps de calcul ou mĂ©moire) lors de son exĂ©cution. Il est robuste et stable. Ainsi, lorsque je travaille sur des projets pour lesquels j’ai besoin de rĂ©sultats rapidement et pour lesquels les exigences ne pas trop fortes en terme de pertinence, le TF-IDF convient trĂšs bien
 si les exigences sont plus fortes, il est possible de s’en servir comme point de rĂ©fĂ©rence avant d’utiliser d’autres modĂšles plus sophistiquĂ©s, comme par exemple le LSA.
Il faut cependant noter que le TF-IDF n’exploite que les textes des documents. Ceci peut-ĂȘtre un avantage pour les bases documentaires, mais un inconvĂ©nient si des liens sont faits entre les documents (sur le web, les hyperliens) : ils apportent une information trĂšs importante, qui ne sera pas prise en compte par TF-IDF.

Aurais-tu un exemple concret liĂ© Ă  l’usage du TF-IDF ?

Une entreprise vous sollicite pour mettre en place un moteur de recherche interne sur ses documents et l’intĂ©grer Ă  son portail. Elle ne sait quel moteur choisir, s’il lui faut une solution gratuite ou payante et quelles technologies sont adĂ©quates. Vous pouvez alors facilement et rapidement lui proposer un dĂ©veloppement prĂ©liminaire : mettre en place un TF-IDF, permettre aux utilisateur de faire leurs premiĂšres requĂȘtes, avant d’analyser les limites de cette premiĂšre approche. Par la suite, selon les retours, il pourra ĂȘtre prioritaire d’amĂ©liorer le moteur, mais peut-ĂȘtre aussi de travailler sur la qualitĂ© des documents, la crĂ©ation de ressources adĂ©quates pour amĂ©liorer les recherche, la mise en place d’autres fonctionnalitĂ©s, etc. !

Comment vois-tu l’avenir du TAL ?

Plusieurs pistes Ă©mergent aujourd’hui. Les derniĂšres avancĂ©es cĂŽtĂ© recherche se sont beaucoup focalisĂ©es sur l’utilisation gĂ©nĂ©ralisĂ©e du Deep Learning, qui a de nombreuses applications et rĂ©duisent les difficultĂ©s Ă  mettre en Ɠuvre certains traitements, en particulier pour la sĂ©mantique. Les progrĂšs en reconnaissance vocale et l’engouement rĂ©cent pour les systĂšmes de dialogues (dont les chatbots / robots) sont Ă©galement trĂšs en vue et vont certainement remodeler en profondeur le paysage du TAL, Ă  l’international comme en France. Nous constatons Ă©galement l’impact, parfois trop peu visible, des systĂšmes de gĂ©nĂ©ration automatique de contenus (dont textuel), autant sur les forums que dans les mĂ©dias et les rĂ©seaux sociaux, il faut ĂȘtre vigilant Ă  cet Ă©gard, ĂȘtre conscient des limites et des risques, les utiliser Ă  bon escient ! En lien avec cela, je me penche ces derniers temps sur la dĂ©tection et la caractĂ©risation des Fake News, qui reprĂ©sente Ă  mes yeux un enjeu scientifique et sociĂ©tal majeur, nous allons d’ailleurs organiser un hackathon sur le sujet en mai.
Sur le fond, et comme je le dis souvent aux Ă©tudiants, il me semble que le TAL doit rester une discipline qui “permette aux humains de manipuler le langage par d’autres moyens et Ă  une autre Ă©chelle”. Il est essentiel Ă  mes yeux que les outils, ressources et technologies que nous dĂ©veloppons restent au service du plus grand nombre !

Merci infiniment Ă  Damien Nouvel d’avoir acceptĂ© de rĂ©pondre Ă  cette interview hyper enrichissante !

J’espĂšre que vous comprenez mieux l’intĂ©rĂȘt du TAL maintenant, et pourquoi je vous rabĂąche avec cela dans le monde du SEO 😉 C’est complĂ©tement liĂ© !

Bon courage Ă  tous,

VĂ©ronique Duong – Directrice associĂ©e chez Rankwell et consultante SEO certifiĂ©e CESEO !

Bonjour tout le monde !

Cela fait un peu plus d’un mois que j’ai donnĂ© mon interview / webinar / Face Ă  Face avec SEMRush, et pour ceux qui n’ont pas pu suivre le « Face to Face« , je vous mets les questions de SEMRush auxquelles j’ai rĂ©pondues, avec mes rĂ©ponses pour chacune d’entre elles.

Le webinar a durĂ© 1h, et c’Ă©tait trĂšs intĂ©ressant de partager mon parcours professionnel et ma vision du SEO Google et Baidu pour 2018.

Voici les questions posĂ©es par SEMRush (je ne mets pas toutes mes rĂ©ponses dans l’article, mais voici Ă  peu prĂšs mes rĂ©ponses importantes) :

Face Ă  Face avec VĂ©ronique Duong

  1. Tu es relativement connue au sein de la communauté SEO francophone mais pour les gens qui ne te connaissent pas, parle nous un peu de toi ?
  2. Pourquoi le SEO ? Comment tu t’es lancĂ©e dans ce domaine d’activitĂ© ? Qu’est-ce qui t’intĂ©resse le plus en SEO ? VĂ©ro : Les tests techniques, et de voir quand ils fonctionnent !
  3. En environ 5-6 ans tu as rĂ©ussi Ă  t’imposer dans le milieu du SEO français mais Ă©galement en Asie, tu es l’une des stars montantes du SEO, explique-nous cette fulgurante ascension.
  4. Actuellement, tu es gĂ©rante/directrice des opĂ©rations chez Rankwell, rĂ©dactrice de contenu sur ton blog Autoveille, formatrice SEO Ă  l’INALCO (institut des langues) et prĂ©sidente du SEO Camp ! Comment gĂšres-tu tes journĂ©es ? VĂ©ro : J’en parle parfois dans mes articles concernant ma vie de consultante SEO, et j’ai une vraie organisation assez tenace pour tout faire entrer dans mon planning ! Les week-ends, je suis sur mon blog AUTOVEILLE, la semaine je suis Ă  fond sur RANKWELL, et le SEO Camp, et je donnais des cours de SEO Ă  des Master 2 tous les vendredis matins pendant le printemps 2017. Je pense renouveler l’expĂ©rience si le temps me le permet.
  5. Être prĂ©sidente du SEO Camp, que cela signifie pour toi ? Beaucoup de choses, mais surtout que je suis capable d’endosser une telle responsabilitĂ©, et que les SEO souhaitent aussi la diffĂ©rence : une femme, d’origine asiatique, jeune, et qui est Ă  la fois spĂ©cialisĂ©e sur le SEO occidental et le SEO asiatique.
  6. Tu es experte en SEO sur Baidu, pour notre audience, est-ce que tu peux nous donner quelques astuces importantes pour améliorer son référencement sur Baidu ?
  7. Peux-tu nous citer les outils que tu utilises ou bien que tu conseilles Ă  tes clients pour Ă©laborer une campagne SEO ?
  8. Le rĂ©fĂ©rencement naturel est en constante Ă©volution, par quels moyens tu te tiens au courant de l’actualitĂ©, des derniĂšres informations… ?
  9. Quelles sont selon toi, les tendances pour le SEO en 2018 ? Sur quoi concentrer sa stratégie SEO pour 2018 ?

Vidéo Marketing :

  1. Il est vrai que le contenu vidĂ©o est en plein essor, (plus d’1 milliard d’utilisateur sur YouTube), mais comment se dĂ©marquer de toutes ces vidĂ©os ?
  2. Quelle type de contenu vidĂ©o faut-il crĂ©er ? Y-a-t-il des rĂšgles Ă  respecter ? Comment optimiser une vidĂ©o ? Existe-t-il des outils ? Je pense qu’il n’y a pas de rĂšgles toutes dĂ©finies, mais des contenus informatifs, Ă©ducatifs, sont Ă  priser. Par exemple, je pense me mettre Ă  vloguer sur les sujets liĂ©s au marketing, au webmarketing que ça soit en Europe ou en Asie ! Si je m’adresse au public de Hong Kong, je parlerai cantonais pour leur prĂ©senter les systĂšmes europĂ©ens, et vice versa 😉 J’espĂšre que cela intĂ©ressera du monde haha !

Optimisation de contenu :

  1. D’aprĂšs notre Ă©tude sur les RF, un contenu plus long est plus souvent prĂ©sent dans les top rĂ©sultats Google, donc faudra-t-il continuĂ© Ă  privilĂ©gier ce genre de contenu en 2018 ? Oui, clairement ! Une page contenant plus de 1200 mots a plus de chance d’ĂȘtre crawlĂ©e par Google (donc d’ĂȘtre rĂ©-indexĂ©e, et d’ĂȘtre classĂ©e par la suite).
  2. A ton avis, est-il mieux de crĂ©er du contenu viral sans optimisation SEO ou crĂ©er un article de qualitĂ© moyenne avec un bon rĂ©fĂ©rencement ? Je dirais qu’il faut les deux : du contenu chaud, limite buzz pour dynamiser la marque ou le nom, et des contenus froids dans le but de maintenir le SEO du site avec de nouvelles landing pages Ă  chaque fois.

Recherche Vocale (Voice Search) :

  1. La recherche vocale devient-elle de plus en plus importante pour le référencement naturel ? Et quelles conséquences sur le SEO ?
  2. Quelles optimisation SEO pour la recherche vocale ? Google veut des questions, et qu’on rĂ©ponde aux questions 🙂
  3. Faut-il craindre les appareils Google Home/ Amazon Echo pour sa vie privĂ©e ? Non, pas vraiment, et d’ailleurs j’en voudrais un !

Mobile (index mobile first, AMP, instant apps) :

  1. Tu as affirmĂ© dans l’un de tes articles qu’en Chine, les volumes de recherche sur mobile explosent par rapport Ă  ceux qui proviennent des PC ! Tu peux nous expliquer pourquoi ce n’est pas encore le cas en France, en Europe et mĂȘme aux US ? Je pense que les usages sont encore assez diffĂ©rents en Europe vs US vs Asie. En Asie, le mobile a explosĂ© avec l’arrivĂ©e de WeChat qui est une app permettant de tout faire ! En Occident, on n’a pas encore l’habitude d’utiliser une seule et mĂȘme app qui agrĂšge tout. On a une app pour chaque chose : commander de la nourriture, un taxi, trouver un resto, etc. Alors que WeChat fait tout ! MĂȘme outil de communication B2B !
  2. Que faire pour ĂȘtre considĂ©rĂ© comme Index Mobile First ? Et que se passe-t-il si mon site n’est pas Ă  jour ?
  3. Quelles sont les points indispensables pour maintenir la présence de recherche mobile sur mon site ?
  4. A partir de FĂ©vrier 2018, il sera obligatoire d’afficher le mĂȘme contenu sur une page web classique et sa version AMP, sous peine de non prise en compte de cette derniĂšre par Google ! Qu’en penses-tu ? (Source abondance). Je ne pense pas que Google soit si radical que ça, mais effectivement, l’AMP devient juste indispensable, et ne pas s’y mettre, c’est un peu « ne pas se mettre Ă  jour » et « suivre la tendance actuelle ». MĂȘme pour la Chine, le MIP devient un must-have !

RĂ©seaux sociaux :

  1. Les réseaux sociaux un facteur important pour le SEO ? Pourquoi ? (Petite réponse rapide de ma part pour cet article : Les signaux des réseaux sociaux (abonnés, likes, partages, interactions générales sont trÚs importants pour le SEO sur Baidu).
  2. Faut-il crĂ©er un compte social en fonction des diffĂ©rents pays ou notre sociĂ©tĂ© est implĂ©mentĂ© ? Je dirais qu’il faut vraiment s’adapter Ă  la culture locale, et ĂȘtre lĂ  oĂč sont les habitants locaux 🙂 Exemple : ĂȘtre sur VKontakte pour la Russie, ĂȘtre sur CafĂ© Naver, pour Naver en CorĂ©e, ĂȘtre sur WeChat en Chine !

Linkbuilding :

  1. Quels sont tes conseils pour faire du Netlinking à la meilleure façon. Comment trouver les liens ?
  2. Comment tu trouves tes ressources ? Partage ton expĂ©rience comment bien organiser ta stratĂ©gie d’information ?
  3. Comment tu combats les liens de mauvaise qualité ? Et les liens toxiques ?
  4. As-tu d’autres choses à rajouter ?

VoilĂ  Ă  peu prĂšs les questions que j’ai eues ^^

Voici le lien de la vidéo du live que vous pouvez voir et revoir !

Face Ă  face avec VĂ©ronique Duong

Bon courage Ă  tous !

VĂ©ronique Duong – SpĂ©cialiste SEO passionnĂ©e

Bonjour tout le monde !

Dans un autre article, je vous expliquais que j’utilisais des ontologies sĂ©mantiques pour crĂ©er des relations sĂ©mantiques entre les pages d’un site (surtout depuis le menu), et aujourd’hui, je vais vous parler d’une autre notion en linguistique, la taxinomie 🙂

DĂ©jĂ , qu’est ce que c’est que la taxinomie en linguistique ? Voici une dĂ©finition scientifique du terme : « Classification d’Ă©lĂ©ments, de suites d’Ă©lĂ©ments formant des listes qui permettront, par leurs rĂšgles de combinaison, de rendre compte des phrases d’une langue (d’apr. Ling. 1972). » Source : http://www.cnrtl.fr/lexicographie/taxinomie

Il ne faut pas confondre la taxinomie et la taxonomie. C’est effectivement deux choses diffĂ©rentes : La taxinomie concerne plus spĂ©cialement les questions de classification, tandis que la taxonomie se rapporte strictement aux questions de nomenclature, de liste.

On rencontre trĂšs souvent des taxinomies en biologie et dans le monde scientifique.

Voici un exemple de taxinomie des bactéries :

classification-taxonomie-des-bacteries-autoveille

Source : http://andryrasamindrakotroka.e-monsite.com/medias/album/classification-taxonomie-des-bacteries-5.jpg

Comme pour les ontologies, on part du plus gĂ©nĂ©rique au plus spĂ©cifique. Mais vous allez vous demander ce qu’est la diffĂ©rence entre ontologies et taxinomies. Voici les dĂ©finitions des deux termes :

L’ontologie est faite pour dĂ©crire le monde tel qu’il est. L’ontologie cherche Ă  dĂ©crire de façon formelle un domaine de connaissance, en identifiant les types d’objets de ce domaine, leurs propriĂ©tĂ©s et leurs relations. En SEO, c’est plutĂŽt les ontologies qu’on utilise car on est dans un mode de « relations » (et plus exactement de « relations sĂ©mantiques »).

Exemple d’ontologie oĂč on voit les liens sĂ©mantiques :

ontologie-liens-semantiques-SEO-vduong

Source : upload.wikimedia.org/wikipedia/commons/b/b1/Mason-ontology.png

La taxinomie est fait pour classer des ressources dans des dossiers, des catĂ©gories. En d’autres termes, elle dĂ©signe la « science de la classification » et par extension tout systĂšme de classification/catĂ©gorisation. Donc, en SEO, les taxinomies peuvent nous aider bien structurer un site par exemple, en classant les diffĂ©rentes pages, Ă  diffĂ©rents niveaux.

Ce sont vraiment deux concepts diffĂ©rents en linguistique qui peuvent ĂȘtre trĂšs intĂ©ressants Ă  appliquer en SEO comme vous pouvez le constater lĂ .

Si cela vous intĂ©resse, je vous ferais aussi un petit article sur les mesures de Rappel et PrĂ©cision que j’ai adorĂ©es utiliser en Master pour faire des statistiques textuelles !

Bon courage Ă  tous !

VĂ©ronique Duong – Consultante SEO certifiĂ©e et passionnĂ©e

Bonjour tout le monde !

Un titre parlant sans ĂȘtre parlant, oui. Cette annĂ©e 2017 m’a offerte tellement de choses au niveau professionnel, que je dois y consacrer un article entier ! Il y a quelques mois, je vous ai fait un article sur le fait que je suis partie de rien pour devenir celle que je suis aujourd’hui. Tout Ă  commencer rĂ©ellement quand j’ai lancĂ© mon blog sur le Traitement Automatique des Langues, la Veille puis le SEO en 2013 (mĂȘme si j’ai commencĂ© mon site autoveille.fr en 2010).

Je pense que la passion y est vraiment pour beaucoup. Avec tout ce que je fais, et je me rends compte de plus en plus, si je n’Ă©tais pas passionnĂ©e Ă  ce point, je n’aurais jamais tenu !

Voici l’article si vous voulez le lire ou le relire 😉 : Je suis partie de rien. La preuve que le travail paie !

L’annĂ©e 2017 m’a offerte beaucoup de choses comme je vous disais au dĂ©but, dans l’ordre, je suis devenue :

  • Auteure d’un ouvrage sur le rĂ©fĂ©rencement naturel / SEO Baidu en français et traduit en anglais (depuis fĂ©vrier 2017)
  • PrĂ©sidente du SEO Camp (depuis mars 2017)
  • ChargĂ©e d’enseignement du SEO pour le Master 2 IngĂ©nierie Linguistique (depuis mars 2017)
  • Partenaire du second moteur de recherche en Chine, Qihoo 360 (en avril 2017)
  • et surtout … GĂ©rante et Directrice des OpĂ©rations Ă  Rankwell, une agence Search / SEO internationale que j’ai crĂ©Ă©e avec deux associĂ©s de Solead (agence de dĂ©veloppement de sites web) (depuis octobre 2017)

Si vous voyez bien l’ensemble des postes, je ne suis plus dans la production du SEO pur Ă  100%. J’ai pris de la hauteur, et je suis plus dans le management, l’Ă©vangĂ©lisation totale du SEO. Je suis allĂ©e prĂ©senter le SEO Camp Ă  PĂŽle Emploi Paris, j’ai nouĂ© un partenariat avec L’Observatoire Com’ Media et je vais continuer Ă  Ă©vangĂ©liser ce mĂ©tier que j’adore … et que je considĂšre plutĂŽt comme une passion !

VĂ©ronique Duong - promotion livre SEO Baidu - AUTOVEILLEUne petite photo lorsque j’ai organisĂ© un petit Ă©vĂ©nement autour de la sortie de mon ouvrage sur le SEO Baidu

Je n’ai pas encore 30 ans, et je me sens dĂ©jĂ  parfois un peu « vieille », mais dans le bon sens. A 21 ans, beaucoup me disait dĂ©jĂ  que j’Ă©tais trĂšs mature pour mon Ăąge, mais je peux vous dire que cela va avec le fait que j’aime ce que je fais. Je le rĂ©pĂšte tout le temps, je sais ^^

L’annĂ©e 2018 va ĂȘtre encore plus intense, je le sens dĂ©jĂ . J’espĂšre participer Ă  plus de projets intĂ©ressants, limite nationaux, et qui me permettront de continuer Ă  grandir encore et toujours. Mine de rien, Ă  28 ans, je suis encore une jeune personne qui a besoin d’apprendre !

En 2017, j’ai Ă©galement participĂ© ou Ă©tĂ© invitĂ©e Ă  des Ă©vĂšnements un peu Ă©loignĂ© du SEO, mais qui sont toujours liĂ©s au webmarketing gĂ©nĂ©raliste / communication digitale. Dans l’ordre :

  • China Connect (mars 2017)
  • Festival des influenceurs culinaires (octobre 2017)
  • Les rendez-vous de l’emploi par le PĂŽle Emploi Paris (octobre 2017)
  • Transformation numĂ©rique par L’Observatoire Com’ Media (novembre 2017)
  • SoirĂ©e de soutien Ă  la Coupe du Monde du Rugby (invitĂ©e par L’Observatoire Com’ Media) (novembre 2017)

Les autres mois non cités ci-dessus, je participais à des évÚnements SEO en fait (est-ce étonnant ? haha) :

  • SEO Campus Caen (janvier 2017)
  • SEO Campus Paris (mars 2017)
  • OrlĂ©anSEO (avril 2017)
  • SEO Campus Lyon (avril 2017)
  • Que Du Web (avril 2017)
  • ApĂ©ro SEO multi-ville du SEO Camp (mai 2017)
  • Je voulais faire l’Ă©vĂ©nement webmarketing / SEO, le WebCampDay, Ă  Angers en mai 2017 aussi, mais mon planning ne m’a pas permis de le faire :/ en 2018, je tente !
  • SMX France (juin 2017)
  • AG du SEO Camp (oĂč j’ai Ă©tĂ© rĂ©Ă©lue PrĂ©sidente) (septembre 2017)
  • BotifyConnect (octobre 2017)
  • European SEO night by OnCrawl (novembre 2017)
  • SEO Campus Metz (novembre 2017)

L’annĂ©e n’a vraiment pas Ă©tĂ©, et ne va pas ĂȘtre, de tout repos en Ă©vĂ©nements de mon cĂŽtĂ© :). En 2018, je veux faire encore plus fort car je veux aller faire ceux en Asie ! Je vous en ai parlĂ© dans cet article : ÉvĂ©nements Webmarketing en Asie en 2017 et 2018

On me demande parfois si je prends des vacances, et je vais vous dire honnĂȘtement : non, et la derniĂšre fois que j’ai eu 1 mois de vacances vĂ©ritables, c’Ă©tait quand j’Ă©tais encore Ă©tudiante, soit … euh … en 2010 ^^ mais chut 😉 !!

workshop-seo-veronique-duong-autoveille-rankwell

Une petite photo me montrant Ă  l’un des workshops SEO auxquels j’ai participĂ©, au cĂŽtĂ© d’Hasni Khabeb !

Bon courage Ă  tous !

VĂ©ronique Duong – Consultante mĂ©ga passionnĂ©e en SEO !

Bonjour !

L’annĂ©e 2017 a bien avancĂ©, et touche Ă  son dernier trimestre. Qu’est-ce que le temps passe vite ! Il faut dĂšs Ă  prĂ©sent penser aux tendances SEO qui pourraient arriver en 2018. Personnellement, je crois Ă  quelques Ă©lĂ©ments qui semblent ĂȘtre les nouveaux piliers du SEO, voire du monde digital.

tendances-seo-2018-veronique-duong-autoveille

Sans plus tarder, voici mes prédictions SEO pour 2018 :

Le vidĂ©o marketing : il y a dĂ©jĂ  une forte tendance de dĂ©veloppement de cette activitĂ©, et avec le mobile qui se dĂ©veloppe et qui devient de plus en plus performant, je ne peux qu’ĂȘtre certaine que les vidĂ©os feront beaucoup parler d’elles prochainement.

La voice search : Google est un moteur de rĂ©ponse dĂ©sormais ! Avec Google Home, on a un petit assistant toujours Ă  cĂŽtĂ© de nous, et qui rĂ©pond quasiment trĂšs bien Ă  toutes nos questions. Cela me fait un peu peur, mais je pense qu’il sera pas mal utile, surtout si on n’est plus tout le temps devant nos PC (et smartphones !)

google-home-moteur-reponse-autoveille

Source : Gadgetsin – Google Home (version US)

L’automatisation de l’optimisation de contenu : les contenus des sites sont long Ă  extraire et Ă  optimiser, et personnellement, je crois fortement au fait qu’il est possible d’automatiser cela, et d’optimiser les contenus manuellement (il est prĂ©fĂ©rable) par la suite. Avec mon ami, nous sommes en pleine phase de recherche et dĂ©veloppement sur cela. On pourra vous en dire plus prochainement.

Le rĂ©sumĂ© automatique de textes : une activitĂ© qui me tient Ă©galement Ă  coeur car je suis ingĂ©nieure linguiste de formation. Je suis certaine que si on arrive Ă  mettre au point un systĂšme pour « crĂ©er », « rĂ©sumer » des textes semi-automatiquement, cela pourrait ĂȘtre une rĂ©volution dans le monde du SEO voire du web en gĂ©nĂ©ral … car une fois que le squelette d’un site est crĂ©Ă©, il faut bien le remplir correctement non ?

Le mobile : avec index mobile first, AMP, instant apps, etc. on a bien compris que le mobile est primordial pour la quasi majorité des pays dans le monde ! En Chine, les volumes de recherche sur mobile explosent par rapport à ceux qui proviennent des PC.

Les rĂ©seaux sociaux (et les backlinks) : ils vont avoir de plus en plus de force dans la communication digitale globale d’une marque. Ils envoient de forts signaux aux utilisateurs, et … c’est logique. Plus un site est vu, aimĂ©, repartagĂ©, plus cela veut dire qu’il est intĂ©ressant, bon, attirant, etc.

Pour moi, ce sont les tendances SEO voire digitales Ă  suivre pour l’avenir. Le SEO on-site devra toujours ĂȘtre fait correctement bien sĂ»r, mais il faut penser Ă  l’aspect moteur de rĂ©ponse, aux vidĂ©os, et Ă  l’automatisation de certaines Ă©tapes dans une stratĂ©gie SEO. C’est bien joli de parler d’analyse de logs, de crawl budget, mais ce n’est pas que ces Ă©lĂ©ments qui vont faire positionner un site.

La technique, c’est bien, mais de la bonne maintenance, c’est encore mieux !

Si vous avez des remarques, laissez un commentaire, ou tweetez 🙂

Bon courage Ă  tous !

VĂ©ronique Duong – Consultante SEO certifiĂ©e CESEO 2014

Bonjour tout le monde !

Comme vous le savez tous, de formation, je suis ingĂ©nieure linguiste, et je suis autant passionnĂ©e par le TAL que par le SEO. Je dirais toujours que c’est le TAL qui m’a menĂ©e vers le SEO car j’ai vu le lien entre ces deux domaines dĂšs le dĂ©but : Linguistique x Informatique en TAL, et SĂ©mantique x Technique en SEO. Je me dĂ©finirais toujours comme une spĂ©cialiste du SEO et du Traitement Automatique des Langues. Il y a moins d’Ă©vĂ©nements sur le TAL que le SEO, et je trouve cela extrĂȘmement dommage car le TAL, la science du langage a tout le mĂ©rite de se faire connaĂźtre.

En TAL, on produit des outils, des scripts qui servent, qui sont utiles pour des expĂ©riences scientifiques, et cela permet de faire progresser la R&D pour beaucoup de choses. Typiquement, j’utilise mes compĂ©tences en TAL pour automatiser certaines phases super chronophages (nettoyage des textes, optimisation des mĂ©ta tags, etc.). autant que possible.

Pendant ce HackaTAL 2017 qui s’est dĂ©roulĂ© Ă  OrlĂ©ans, au Lab’O (incubateur de start-ups dans le numĂ©rique), on a eu droit Ă  quelques petites confĂ©rences d’entreprises spĂ©cialisĂ©es dans le TAL, telles que Recital (gĂ©nĂ©ration de rĂ©sumĂ© automatique), Mood Messenger, etc.

On avait des tùches trÚs précises à réaliser, et voici les consignes officielles :

TĂąches

1. Résumé automatique de commentaires sur des produits en ligne

Objectifs

Dans le cadre de la promotion de produits sur les plateformes en ligne, l’apprĂ©ciation peut ĂȘtre analysĂ©e Ă  partir des retours utilisateurs (User Generated Content). Ces derniers peuvent se prĂ©senter : notes, Ă©toiles, mais aussi avis et commentaires textuels. Les notes n’étant pas toujours en adĂ©quation avec les contenus textuels, de plus en plus d’acteurs cherchent Ă  qualifier l’opinion des utilisateurs et Ă  dĂ©terminer quels sont leurs arguments.

La thĂ©matique est orientĂ©e sur les avis et commentaires concernant l’offre de logements en rĂ©gion centre (particuliers, auberges, hĂŽtels, luxe, etc.). Il s’agira de construire un rĂ©sumĂ© automatique des commentaires, Ă  partir des arguments dĂ©tectĂ©s dans ces derniers, Ă  comparer aux notes et/ou Ă  la description. Ce rĂ©sumĂ© orientĂ© devra ĂȘtre sĂ©parĂ© en deux champs principaux : points positifs et points nĂ©gatifs sur des critĂšres communs : accueil, confort, services, propretĂ©, accessibilitĂ©, etc. D’autres champs peuvent ĂȘtre proposĂ©s par les participants selon les arguments extraits Ă  partir des commentaires.

Sous tĂąches

  • Traitement / dĂ©bruitage de donnĂ©es UGC
  • DĂ©tection et extraction d’arguments
  • AgrĂ©gation des valeurs par produits
  • DĂ©tection et rĂ©solution de contradictions
  • RĂ©sumĂ© automatique d’opinions sur les aspects

Données et évaluation

Collection de données représentant chaque produit en ligne (champs de description du produit, notes ou étoiles, liste des commentaires associés) en français et en anglais. Les données seront fournies sous-forme de corpus (pour le corpus collecté sur Internet) et/ou via des liens à télécharger (pour les données fournies par les partenaires, à préciser).

L’évaluation portera sur la capacitĂ© Ă  calculer automatiquement les scores pour chaque catĂ©gorie d’évaluation du produit (accueil, propretĂ©, emplacement, etc.). Pour chacun de ces scores, un argumentaire rĂ©sumĂ© automatiquement devra ĂȘtre fourni qui pourra faire l’objet d’évaluation qualitatives.

2. Identification des tendances stratégiques liées aux brevets

Objectifs

La stratĂ©gie de dĂ©pĂŽt de brevets par des entreprises ou des individus reprĂ©sente un enjeu considĂ©rable, qui a donnĂ© lieu Ă  des affaires mondialement connues (Apple vs Samsung, Microsoft vs Google). Cet outil juridique reste cependant difficilement accessible pour les entreprises de petite taille ou les individus. En particulier, il n’est pas Ă©vident de dĂ©terminer quelles technologies vont avoir tendance Ă  ĂȘtre l’objet de brevets, dans une optique de veille ou de prĂ©servation de la propriĂ©tĂ© intellectuelle.

La tĂąche proposĂ©e vise Ă  mieux modĂ©liser les mĂ©canismes qui permettent de prĂ©dire l’apparition de brevets pour des technologies en essor, par utilisation de mĂ©thodes d’IA et de TAL (terminologie et expressions multi-mots, catĂ©gorisation des brevets, Ă©volution des termes et des n-grams, prĂ©diction de tendances). L’objectif est de dĂ©terminer, au regard des donnĂ©es collectĂ©es sur des brevets (par ex. distribution des termes entre 2001 et 2009), quels brevets seront dĂ©posĂ©s (par ex. en 2010). Pour illustration : si “tactile” est recensĂ© avec une grande montĂ©e en 2010, pouvait-on prĂ©dire cette montĂ©e en exploitant les donnĂ©es de la dĂ©cennie prĂ©cĂ©dente ?

Sous tĂąches

  • PrĂ©traitement du langage et de la structure des brevets
  • Extraction de terminologies liĂ©es aux technologies
  • Comparaison des termes des brevets avec les sites technologiques
  • DĂ©tection de signaux faibles
  • Analyse et prĂ©diction de tendances

De mon cĂŽtĂ©, je me suis penchĂ©e sur le rĂ©sumĂ© automatique de commentaires sur des produits en ligne. J’ai dĂ©jĂ  eu des sujets similaires Ă  traiter, et je trouve cela plus concret et utilisable tout de suite derriĂšre (une fois que le script est prĂȘt, l’outil peut servir !! 🙂 ) On Ă©tait une Ă©quipe de 3 : deux dĂ©veloppeurs web et moi. La technologie utilisĂ©e Ă©tait du PHP, des Regex, de l’Ă©tiquetage de donnĂ©es, et la stratĂ©gie Ă©tait d’utiliser les mots ayant le plus de poids dans une phrase (adverbe, adjectifs, verbes). Avec cette mĂ©thode, on a eu un Rappel de prĂšs de 80% ! (Rappel = le nombre de documents correctement retrouvĂ© dans sa classe, PrĂ©cision = le nombre de documents correctement attribuĂ© dans sa classe (ex : pour le rappel, cela veut dire que le commentaire a bien Ă©tĂ© retrouvĂ© dans telle ou telle catĂ©gorie automatiquement, et la prĂ©cision correspond au fait si le commentaire est bien attribuĂ© positif / neutre / nĂ©gatif).

C’est mon Ă©quipe qui a gagnĂ© le HackaTAL 2017 !!! Je suis trĂšs contente que ma stratĂ©gie / rĂ©flexion marche (avec les ADJ, les ADV, etc.), et on s’est bien dĂ©brouillĂ© avec les dĂ©veloppeurs ! Un Grand MERCI Ă  Nicolas Le Flohic et Fanny Jan, mes co-Ă©quipiers.

hackatal 2017 - Ă©quipe Wild gagnante

Voici quelques clichés du HackaTAL 2017 :

La jolie photo de souvenirs devant le logo du Lab’O !

Présentations des projets de chaque équipe :

Ca code, ça code !! Prùs de 48 heures de scripting 😉

Toutes les Ă©quipes ont bien travaillĂ©es, et ce sont donnĂ©es Ă  200% !!! Un week-end intense avec de belles rencontres, des Ă©changes hyper intĂ©ressants, et … cela m’a redonnĂ©e une folle envie de me remettre dans le TAL !!

En tout cas, une chose est sĂ»r, la Science du Langage est une science qui a beaucoup d’avenir :

Je pense qu’il y a moyen qu’un jour, je retourne Ă  100% dans les Sciences du Langage, dans le Traitement Automatique des Langues. On verra ce que la vie me donnera !

J’espĂšre que cet article vous aura plu, il change un peu du SEO 😉

Un Ă©norme merci Ă  Damien Nouvel (ERTIM / INALCO), au Lab’O et tous ceux qui ont organisĂ© cet superbe Ă©vĂ©nement concret et intense !

Bon courage Ă  tous,

VĂ©ronique Duong – IngĂ©nieure Linguiste … avant tout 🙂 !

%d blogueurs aiment cette page :