archive

Interview

Bonjour Ă  tous !

Je vais vous proposer une petite sĂ©rie d’interviews d’experts en ingĂ©nierie linguistique, qui pour moi, est complĂštement corrĂ©lĂ©e au SEO / rĂ©fĂ©rencement naturel ! J’ai l’honneur de commencer cette sĂ©rie avec Damien Nouvel, maĂźtre de confĂ©rences Ă  l’INALCO, et qui allait devenir mon directeur de thĂšses (mais Ă  la place, j’ai publiĂ© deux bouquins ! car on ne fait pas les choses Ă  moitiĂ© ici ;)) !

C’est parti pour l’interview :

PrĂ©sentation de l’expert TAListe :

Je suis maĂźtre de confĂ©rences Ă  l’Inalco, membre du laboratoire ERTIM. J’y travaille dans le domaine du traitement automatique des langues (TAL), en particulier sur la fouille de donnĂ©es textuelles et le multilinguisme pour une large variĂ©tĂ© de langues (occidentales et orientales) et pour des objectifs variĂ©s (translittĂ©ration, dĂ©sambiguisation lexicale, opinion, analyse textomĂ©trique, etc.). J’ai prĂ©cĂ©demment travaillĂ© au LIMSI-CNRS (extraction d’information), Ă  INRIA Alpage (mots hors-vocabulaire dans les fils de dĂ©pĂȘches). Ma thĂšse, faite dans l’équipe BDTLN du LI de Tours, a portĂ© sur la reconnaissance automatique des entitĂ©s nommĂ©es (disons les noms propres), par d’extraction automatique de motifs sĂ©quentiels (de la fouille de donnĂ©es).

Comment définirais-tu la notion de TF-IDF ?

Le TF-IDF est une mĂ©thode historique, fondĂ©e dans les annĂ©es 80, pour implĂ©menter des outils de recherche d’information. L’exemple typique est le moteur de recherche, qui doit sĂ©lectionner les documents les plus pertinents pour une requĂȘte donnĂ©e. Une simple recherche boolĂ©enne dans les index donne trop de rĂ©sultats, qui ne sont pas ordonnĂ©s. L’algorithme TF-IDF pallie cela en exploitant simultanĂ©ment le nombre d’occurrences des termes (TF) et leur importance sĂ©mantique dans la collection de documents (IDF) pour ordonner les rĂ©sultats, et prĂ©senter en haut de la liste ceux qu’un calcul statistique simple nous indique ĂȘtre les plus pertinents. D’autres algorithmes sont aujourd’hui plus performants, mais celui-ci reste fondateur car il est trĂšs fiable, solide et stable : il peut ĂȘtre implĂ©mentĂ© facilement et constitue un excellent point de dĂ©part.

tfidf-interview-damien-nouvel-autoveille

Et pour le Rappel et la Précision ?

Pour expliquer ces deux mesures de qualitĂ© de rĂ©sultats (par exemple pour un moteur de recherche), il faut faire appel Ă  deux notions complĂ©mentaires : le silence et le bruit. Le rappel indique Ă  quel point un algorithme donne tous les rĂ©sultats attendus, sinon on dit qu’il y a du silence. La prĂ©cision calcul la proportion de rĂ©sultats ramenĂ©s sont pertinents, ceux qui ne le sont pas donnent du bruit. Le dĂ©fi, en particulier en recherche d’information, est de trouver le meilleur compromis possible : il faut Ă  la fois amĂ©liorer la prĂ©cision et le rappel, ou, dit autrement, rĂ©duire le bruit et le silence ! Pour mesurer cela globalement, il existe une troisiĂšme mĂ©trique qui combine le rappel et la prĂ©cision, que l’on appelle la F-mesure, qui est la moyenne (harmonique) des deux prĂ©cĂ©dentes. Ceci dit, dans le domaine de la recherche d’information, si ces mesures restent valables, elles sont aujourd’hui moins utilisĂ©es au profit d’autres mĂ©triques plus adaptĂ©es.

Dans quels cas utilises-tu le TF-IDF ? et pourquoi ?

Le TF-DIF est implĂ©mentĂ© dans de trĂšs nombreux langages sous forme de librairies, il nĂ©cessite trĂšs peu de programmation pour son implĂ©mentation et des ressources limitĂ©es (temps de calcul ou mĂ©moire) lors de son exĂ©cution. Il est robuste et stable. Ainsi, lorsque je travaille sur des projets pour lesquels j’ai besoin de rĂ©sultats rapidement et pour lesquels les exigences ne pas trop fortes en terme de pertinence, le TF-IDF convient trĂšs bien
 si les exigences sont plus fortes, il est possible de s’en servir comme point de rĂ©fĂ©rence avant d’utiliser d’autres modĂšles plus sophistiquĂ©s, comme par exemple le LSA.
Il faut cependant noter que le TF-IDF n’exploite que les textes des documents. Ceci peut-ĂȘtre un avantage pour les bases documentaires, mais un inconvĂ©nient si des liens sont faits entre les documents (sur le web, les hyperliens) : ils apportent une information trĂšs importante, qui ne sera pas prise en compte par TF-IDF.

Aurais-tu un exemple concret liĂ© Ă  l’usage du TF-IDF ?

Une entreprise vous sollicite pour mettre en place un moteur de recherche interne sur ses documents et l’intĂ©grer Ă  son portail. Elle ne sait quel moteur choisir, s’il lui faut une solution gratuite ou payante et quelles technologies sont adĂ©quates. Vous pouvez alors facilement et rapidement lui proposer un dĂ©veloppement prĂ©liminaire : mettre en place un TF-IDF, permettre aux utilisateur de faire leurs premiĂšres requĂȘtes, avant d’analyser les limites de cette premiĂšre approche. Par la suite, selon les retours, il pourra ĂȘtre prioritaire d’amĂ©liorer le moteur, mais peut-ĂȘtre aussi de travailler sur la qualitĂ© des documents, la crĂ©ation de ressources adĂ©quates pour amĂ©liorer les recherche, la mise en place d’autres fonctionnalitĂ©s, etc. !

Comment vois-tu l’avenir du TAL ?

Plusieurs pistes Ă©mergent aujourd’hui. Les derniĂšres avancĂ©es cĂŽtĂ© recherche se sont beaucoup focalisĂ©es sur l’utilisation gĂ©nĂ©ralisĂ©e du Deep Learning, qui a de nombreuses applications et rĂ©duisent les difficultĂ©s Ă  mettre en Ɠuvre certains traitements, en particulier pour la sĂ©mantique. Les progrĂšs en reconnaissance vocale et l’engouement rĂ©cent pour les systĂšmes de dialogues (dont les chatbots / robots) sont Ă©galement trĂšs en vue et vont certainement remodeler en profondeur le paysage du TAL, Ă  l’international comme en France. Nous constatons Ă©galement l’impact, parfois trop peu visible, des systĂšmes de gĂ©nĂ©ration automatique de contenus (dont textuel), autant sur les forums que dans les mĂ©dias et les rĂ©seaux sociaux, il faut ĂȘtre vigilant Ă  cet Ă©gard, ĂȘtre conscient des limites et des risques, les utiliser Ă  bon escient ! En lien avec cela, je me penche ces derniers temps sur la dĂ©tection et la caractĂ©risation des Fake News, qui reprĂ©sente Ă  mes yeux un enjeu scientifique et sociĂ©tal majeur, nous allons d’ailleurs organiser un hackathon sur le sujet en mai.
Sur le fond, et comme je le dis souvent aux Ă©tudiants, il me semble que le TAL doit rester une discipline qui “permette aux humains de manipuler le langage par d’autres moyens et Ă  une autre Ă©chelle”. Il est essentiel Ă  mes yeux que les outils, ressources et technologies que nous dĂ©veloppons restent au service du plus grand nombre !

Merci infiniment Ă  Damien Nouvel d’avoir acceptĂ© de rĂ©pondre Ă  cette interview hyper enrichissante !

J’espĂšre que vous comprenez mieux l’intĂ©rĂȘt du TAL maintenant, et pourquoi je vous rabĂąche avec cela dans le monde du SEO 😉 C’est complĂ©tement liĂ© !

Bon courage Ă  tous,

VĂ©ronique Duong – Directrice associĂ©e chez Rankwell et consultante SEO certifiĂ©e CESEO !

Publicités

Bonjour tout le monde !

Cela fait un peu plus d’un mois que j’ai donnĂ© mon interview / webinar / Face Ă  Face avec SEMRush, et pour ceux qui n’ont pas pu suivre le « Face to Face« , je vous mets les questions de SEMRush auxquelles j’ai rĂ©pondues, avec mes rĂ©ponses pour chacune d’entre elles.

Le webinar a durĂ© 1h, et c’Ă©tait trĂšs intĂ©ressant de partager mon parcours professionnel et ma vision du SEO Google et Baidu pour 2018.

Voici les questions posĂ©es par SEMRush (je ne mets pas toutes mes rĂ©ponses dans l’article, mais voici Ă  peu prĂšs mes rĂ©ponses importantes) :

Face Ă  Face avec VĂ©ronique Duong

  1. Tu es relativement connue au sein de la communauté SEO francophone mais pour les gens qui ne te connaissent pas, parle nous un peu de toi ?
  2. Pourquoi le SEO ? Comment tu t’es lancĂ©e dans ce domaine d’activitĂ© ? Qu’est-ce qui t’intĂ©resse le plus en SEO ? VĂ©ro : Les tests techniques, et de voir quand ils fonctionnent !
  3. En environ 5-6 ans tu as rĂ©ussi Ă  t’imposer dans le milieu du SEO français mais Ă©galement en Asie, tu es l’une des stars montantes du SEO, explique-nous cette fulgurante ascension.
  4. Actuellement, tu es gĂ©rante/directrice des opĂ©rations chez Rankwell, rĂ©dactrice de contenu sur ton blog Autoveille, formatrice SEO Ă  l’INALCO (institut des langues) et prĂ©sidente du SEO Camp ! Comment gĂšres-tu tes journĂ©es ? VĂ©ro : J’en parle parfois dans mes articles concernant ma vie de consultante SEO, et j’ai une vraie organisation assez tenace pour tout faire entrer dans mon planning ! Les week-ends, je suis sur mon blog AUTOVEILLE, la semaine je suis Ă  fond sur RANKWELL, et le SEO Camp, et je donnais des cours de SEO Ă  des Master 2 tous les vendredis matins pendant le printemps 2017. Je pense renouveler l’expĂ©rience si le temps me le permet.
  5. Être prĂ©sidente du SEO Camp, que cela signifie pour toi ? Beaucoup de choses, mais surtout que je suis capable d’endosser une telle responsabilitĂ©, et que les SEO souhaitent aussi la diffĂ©rence : une femme, d’origine asiatique, jeune, et qui est Ă  la fois spĂ©cialisĂ©e sur le SEO occidental et le SEO asiatique.
  6. Tu es experte en SEO sur Baidu, pour notre audience, est-ce que tu peux nous donner quelques astuces importantes pour améliorer son référencement sur Baidu ?
  7. Peux-tu nous citer les outils que tu utilises ou bien que tu conseilles Ă  tes clients pour Ă©laborer une campagne SEO ?
  8. Le rĂ©fĂ©rencement naturel est en constante Ă©volution, par quels moyens tu te tiens au courant de l’actualitĂ©, des derniĂšres informations… ?
  9. Quelles sont selon toi, les tendances pour le SEO en 2018 ? Sur quoi concentrer sa stratégie SEO pour 2018 ?

Vidéo Marketing :

  1. Il est vrai que le contenu vidĂ©o est en plein essor, (plus d’1 milliard d’utilisateur sur YouTube), mais comment se dĂ©marquer de toutes ces vidĂ©os ?
  2. Quelle type de contenu vidĂ©o faut-il crĂ©er ? Y-a-t-il des rĂšgles Ă  respecter ? Comment optimiser une vidĂ©o ? Existe-t-il des outils ? Je pense qu’il n’y a pas de rĂšgles toutes dĂ©finies, mais des contenus informatifs, Ă©ducatifs, sont Ă  priser. Par exemple, je pense me mettre Ă  vloguer sur les sujets liĂ©s au marketing, au webmarketing que ça soit en Europe ou en Asie ! Si je m’adresse au public de Hong Kong, je parlerai cantonais pour leur prĂ©senter les systĂšmes europĂ©ens, et vice versa 😉 J’espĂšre que cela intĂ©ressera du monde haha !

Optimisation de contenu :

  1. D’aprĂšs notre Ă©tude sur les RF, un contenu plus long est plus souvent prĂ©sent dans les top rĂ©sultats Google, donc faudra-t-il continuĂ© Ă  privilĂ©gier ce genre de contenu en 2018 ? Oui, clairement ! Une page contenant plus de 1200 mots a plus de chance d’ĂȘtre crawlĂ©e par Google (donc d’ĂȘtre rĂ©-indexĂ©e, et d’ĂȘtre classĂ©e par la suite).
  2. A ton avis, est-il mieux de crĂ©er du contenu viral sans optimisation SEO ou crĂ©er un article de qualitĂ© moyenne avec un bon rĂ©fĂ©rencement ? Je dirais qu’il faut les deux : du contenu chaud, limite buzz pour dynamiser la marque ou le nom, et des contenus froids dans le but de maintenir le SEO du site avec de nouvelles landing pages Ă  chaque fois.

Recherche Vocale (Voice Search) :

  1. La recherche vocale devient-elle de plus en plus importante pour le référencement naturel ? Et quelles conséquences sur le SEO ?
  2. Quelles optimisation SEO pour la recherche vocale ? Google veut des questions, et qu’on rĂ©ponde aux questions 🙂
  3. Faut-il craindre les appareils Google Home/ Amazon Echo pour sa vie privĂ©e ? Non, pas vraiment, et d’ailleurs j’en voudrais un !

Mobile (index mobile first, AMP, instant apps) :

  1. Tu as affirmĂ© dans l’un de tes articles qu’en Chine, les volumes de recherche sur mobile explosent par rapport Ă  ceux qui proviennent des PC ! Tu peux nous expliquer pourquoi ce n’est pas encore le cas en France, en Europe et mĂȘme aux US ? Je pense que les usages sont encore assez diffĂ©rents en Europe vs US vs Asie. En Asie, le mobile a explosĂ© avec l’arrivĂ©e de WeChat qui est une app permettant de tout faire ! En Occident, on n’a pas encore l’habitude d’utiliser une seule et mĂȘme app qui agrĂšge tout. On a une app pour chaque chose : commander de la nourriture, un taxi, trouver un resto, etc. Alors que WeChat fait tout ! MĂȘme outil de communication B2B !
  2. Que faire pour ĂȘtre considĂ©rĂ© comme Index Mobile First ? Et que se passe-t-il si mon site n’est pas Ă  jour ?
  3. Quelles sont les points indispensables pour maintenir la présence de recherche mobile sur mon site ?
  4. A partir de FĂ©vrier 2018, il sera obligatoire d’afficher le mĂȘme contenu sur une page web classique et sa version AMP, sous peine de non prise en compte de cette derniĂšre par Google ! Qu’en penses-tu ? (Source abondance). Je ne pense pas que Google soit si radical que ça, mais effectivement, l’AMP devient juste indispensable, et ne pas s’y mettre, c’est un peu « ne pas se mettre Ă  jour » et « suivre la tendance actuelle ». MĂȘme pour la Chine, le MIP devient un must-have !

RĂ©seaux sociaux :

  1. Les réseaux sociaux un facteur important pour le SEO ? Pourquoi ? (Petite réponse rapide de ma part pour cet article : Les signaux des réseaux sociaux (abonnés, likes, partages, interactions générales sont trÚs importants pour le SEO sur Baidu).
  2. Faut-il crĂ©er un compte social en fonction des diffĂ©rents pays ou notre sociĂ©tĂ© est implĂ©mentĂ© ? Je dirais qu’il faut vraiment s’adapter Ă  la culture locale, et ĂȘtre lĂ  oĂč sont les habitants locaux 🙂 Exemple : ĂȘtre sur VKontakte pour la Russie, ĂȘtre sur CafĂ© Naver, pour Naver en CorĂ©e, ĂȘtre sur WeChat en Chine !

Linkbuilding :

  1. Quels sont tes conseils pour faire du Netlinking à la meilleure façon. Comment trouver les liens ?
  2. Comment tu trouves tes ressources ? Partage ton expĂ©rience comment bien organiser ta stratĂ©gie d’information ?
  3. Comment tu combats les liens de mauvaise qualité ? Et les liens toxiques ?
  4. As-tu d’autres choses à rajouter ?

VoilĂ  Ă  peu prĂšs les questions que j’ai eues ^^

Voici le lien de la vidéo du live que vous pouvez voir et revoir !

Face Ă  face avec VĂ©ronique Duong

Bon courage Ă  tous !

VĂ©ronique Duong – SpĂ©cialiste SEO passionnĂ©e

%d blogueurs aiment cette page :