archive

Traitement automatique des langues

Bonjour tout le monde !

EDIT : J’ai commencĂ© un Doctorate in Business Administration (DBA) (ou en français « Doctorat en Administration des Affaires ») en Ă©cole de commerce (chez l’Institut de Langues et de Commerce International) Ă  Paris depuis le 9 novembre 2020. I can do it!

Nous traversons une pĂ©riode trĂšs particuliĂšre, et nous devons rester forts et solidaires. Cette pĂ©riode m’a aussi fait rĂ©flĂ©chir. Le temps passe trĂšs vite, et il faut vivre sans regrets. J’ai donc dĂ©cidĂ© de reprendre mes dĂ©marches pour m’inscrire en doctorat et rĂ©aliser une thĂšse sur un sujet qui me tient Ă  cƓur, mais que je ne compte pas dĂ©voiler avant que tout soit fait. En 2014, j’avais dĂ©jĂ  un dĂ©but de rĂ©flexion sur une thĂšse doctorale, mais certains blocages administratifs m’ont empĂȘchĂ©e d’avancer, et avec la prĂ©sidence du SEO Camp, la crĂ©ation de mon entreprise, les projets professionnels, la rĂ©daction de mes ouvrages, il y avait un rĂ©el rush.

Il y avait un intĂ©rĂȘt pour le sujet de thĂšse que j’avais, il y a 6 annĂ©es en arriĂšres :

these-doctorat-cifre-veronique-duong-2014

En 6 ans, voire 7 ans (je commencerai, je l’espĂšre, le doctorat en 2021 si tout va bien), mon sujet s’est affinĂ©, et je sais sur quoi je voudrais faire des recherches qui couplent Ă  la fois traitement automatique des langues, rĂ©fĂ©rencement web et multilinguisme. Je pense Ă  mon ancienne universitĂ© pour faire ce doctorat, mais si l’Ă©cole doctorale ne matche pas assez avec mon projet, je vais tenter de contacter d’autres Ă©coles doctorales. Mais j’aurais prĂ©fĂ©rĂ© rester avec mon Ă©cole initiale.

Cette recherche doctorale, je la vois comme un vrai projet de recherche et d’innovation pour les domaines du SEO et du TAL, et non seulement avoir le grade de docteur. Je suis passionnĂ©e par ces deux domaines et je souhaite vraiment investir le temps de ma vie professionnelle pour ces derniĂšres. J’ai certes pas mal d’objectifs que j’aimerais atteindre, et ces objectifs ce sont vraiment des rĂȘves aussi.

Pour le financement de ma thĂšse, on pensait Ă  la CIFRE, mais s’il est possible de la financer moi-mĂȘme, je tenterai tout pour le faire.

Voici l’explication de la CIFRE en infographie :

thĂšse CIFRE - Doctorat - Candidate Veronique DUONG - AUTOVEILLE

Source de l’image : ADCIFRESHS

AUTOVEILLE est nĂ© de mes recherches en Master 2, et peut ĂȘtre Ă  l’issue de mes travaux en Doctorat, je vais crĂ©er un autre projet. L’idĂ©e est de crĂ©er une sociĂ©tĂ© plus tard autour, et donc, de l’emploi Ă  venir.

Maintenant, j’espĂšre juste trouver une Ă©cole doctorale qui me suivra dans ce sens, et qui me permettra de faire des recherches.

Bon courage à tous, et ne laissez jamais tomber vos idées et vos envies ambitieux.

VĂ©ronique DUONG – Experte SEO international – Directrice RANKWELL

Publicité

Bonjour tout le monde !

Durant l’Ă©tĂ© 2019, j’ai appris le corĂ©en en mode intensif, pendant deux semaines, Ă  raison de deux heures par jour ! Je suis super contente d’avoir pris cette initiative et d’avoir investi mon temps et un budget dans cette formation. Je sais maintenant lire et Ă©crire le corĂ©en. Certains sons ressemblent au chinois et au japonais, et cela facilite ma comprĂ©hension de la langue. Je parle plusieurs langues asiatiques, et quand je dis que « je parle », c’est vraiment que je peux comprendre le sens de ce qu’on me dit, ou je sais lire et Ă©crire.

Je maĂźtrise Ă  l’heure actuelle :

  • Cantonais çČ€èŻ­
  • Mandarin æ™źé€šèŻ
  • Teochew æœźć·žèŻ
  • Japonais æ—„æ–‡ – æ—„æœŹèȘž (Nihongo)
  • CorĂ©en 韩文 – 한Ꞁ (Hangeul)

Par exemple, le Khmer, je ne le compte pas, car je ne sais pas lire, ni Ă©crire, je n’ai que des notions trĂšs basiques.

Le corĂ©en, je l’ai appris par curiositĂ© car tout le monde me disait qu’en parlant mandarin, et sachant lire en japonais (pour les sons), cela devrait ĂȘtre simple. Je me suis donc un peu lancer le dĂ©fi (quand je vous dis que j’aime les challenges ! …). Les cours ont commencĂ© le 19 aoĂ»t et se sont terminĂ©s le 30 aoĂ»t. Tous les soirs, aprĂšs le travail, je faisais 2 heures de corĂ©en. J’adorais, et j’ai commencĂ© Ă  me passionner … au point de vouloir partir Ă  SĂ©oul l’an prochain ! Je veux dĂ©couvrir la culture corĂ©enne, la langue, les locaux de plus prĂšs 🙂

Je travaille sur Naver (SEO corĂ©en) et je ne savais pas encore lire quand j’ai commencĂ© Ă  me spĂ©cialiser sur ce moteur. Maintenant que je sais lire, je vais me spĂ©cialiser encore un peu plus sur le moteur corĂ©en (et Yahoo! Japan, j’ai lis, Ă©crit et parle plus japonais que corĂ©en pour le moment) !

SEO Naver SEO coréen SEO Asie Véronique DUONG

Naver Datalab, outil pour trouver les tendances de recherche en Corée du Sud

SEO Naver - SEO Corée du Sud - SEO Coréen - Véronique DUONG

Certains mots en corĂ©en ressemblent au chinois, et cela m’aide dans la comprĂ©hension. Dans Naver Datalab (Ă©quivalent de Google Trends ou Baidu Index), on y trouve des donnĂ©es portant sur un secteur ou un mot-clĂ© spĂ©cifique.
Par exemple, ci-dessus, « Duty Free Shop 멎섞점 (myeonsejeom) » (en chinois 慍繎ćș— (mian shui dian)) est recherchĂ© entre 90 et 100 fois par jour, principalement par des femmes en CorĂ©e du Sud (78%) qui ont entre 20 et 30 ans. Les recherches se font principalement sur appareils mobiles. Analyser les data, c’est la base pour comprendre beaucoup de choses et mieux cibler ses stratĂ©gies.

Sinon, si je devais classer par ordre de difficultĂ©, en termes d’Ă©critures, voici mon classement personnel (du plus difficile au plus facile) :

  • Chinois traditionnel (le must du difficile avec les idĂ©ogrammes traditionnels)
  • Chinois simplifiĂ©
  • Japonais
  • CorĂ©en

Dans mon apprentissage, j’ai commencĂ© par le plus dur quand j’Ă©tais petite entre la primaire et le collĂšge en chinois traditionnel, puis du collĂšge Ă  la fac, j’ai fait du chinois simplifiĂ©, et j’ai commencĂ© le japonais il y a 2 ans (dĂ©jĂ  !!), et on Ă©crit avec les kanji qui viennent du chinois traditionnel. Si vous avez des enfants, je vous conseille cet ordre pour leur apprentissage. AprĂšs je ne sais pas s’ils voudront faire autant de langues que moi ^^’ (je suis une passionnĂ©e de langues et de linguistique Ă  la base).

En faisant mettant Ă  jour mon profil Linkedin, je maĂźtrise actuellement 7 langues. Cela m’a surprise car je ne compte pas tous les jours les langues que je parle. Je parle cantonais et français Ă  un vrai niveau bilingue (langues maternelles) et je peux faire de l’interprĂ©tariat Ă  l’improviste sans problĂšme, l’anglais et le mandarin, j’ai un niveau professionnel complet, je le parle et l’Ă©coute couramment, et on peut dire que j’ai aussi un niveau bilingue. Le teochew, je comprends tout car mon pĂšre me parle souvent dans cette langue (depuis bĂ©bĂ©, donc c’est aussi une langue maternelle en fait), le japonais et le corĂ©en, j’apprends, je dĂ©couvre, je lis, je m’entraĂźne 🙂

Je souhaite un jour faire du russe et de l’italien, mais pour le moment, ce n’est pas prĂ©vu pour avant les 5 prochaines annĂ©es Ă  venir !

Bon courage Ă  tous !

VĂ©ronique DUONG – PassionnĂ©e de l’Asie – IngĂ©nieure linguiste multilingueExperte SEO certifiĂ©e CESEO – Directrice associĂ©e RANKWELL

Bonjour tout le monde,

Chaque annĂ©e, arriver au mois d’aoĂ»t, c’est le calme dans les grandes villes (notamment Paris), et il y a une lĂ©gĂšre baisse des activitĂ©s. La majoritĂ© des personnes sont en vacances, Ă  l’Ă©tranger, et avec cette baisse d’audience en ligne comme dans la vie rĂ©elle, on peut se demander s’il est intĂ©ressant de publier des articles, des news, des nouvelles pages sur son blog ou site.

De mon point de vue, il faut continuer Ă  publier car vous ĂȘtes en vacances, mais les algorithmes non ! Googlebot, Baiduspider, YandexBot, etc. sont tous lĂ , et ils continuent Ă  crawler vos sites, Ă  chercher les nouveautĂ©s, les contenus rĂ©cemment publiĂ©s, et s’ils n’en trouvent pas chez vous, ils vont aller passer plus de temps avec les sites des autres ! … Donc pensez Ă  publier au moins une petite actualitĂ© par semaine, car je suis certaine que vous avez des choses Ă  dire sur votre activitĂ©, vos nouveaux services, produits, idĂ©es Ă  venir !

seo-articles-vacances-aout-veronique-duong

Source : image gratuite sur Pixabay

J’aime rĂ©diger, et j’ai souvent de l’inspiration, mais cela m’arrive aussi d’avoir un manque d’idĂ©es de me dire … mais qu’est ce que je peux leurs raconter cette semaine … mais en rĂ©flĂ©chissant 2 minutes, on a souvent pas mal de choses Ă  partager, et ce n’est pas forcĂ©ment que porter sur des compĂ©tences techniques. Je partage de plus en plus de choses sur ma vie professionnelle en tant qu’entrepreneure, auteure, confĂ©renciĂšre, formatrice, spĂ©cialiste du SEO, etc. Ce sont des Ă©lĂ©ments tout aussi importants pour mon lectorat afin qu’ils sachent comment j’ai fait pour rĂ©ussir Ă  tout enchaĂźner en l’espace de quelques annĂ©es. Parfois, j’ai aussi envie d’Ă©crire sur certains faits comme les clients de mauvaise foi, les cas compliquĂ©s, etc. car la vie n’est jamais tout rose, mais on doit faire le maximum pour qu’elle soit bien.

Tout ça pour dire que pendant que vous ĂȘtes au repos, d’autres vont travailler leurs sites, et si vous ne gardez pas un Ɠil sur vos sites, cela peut ĂȘtre impactant pour vous.

Bon courage Ă  tous !

VĂ©ronique DUONG – Experte SEO international – PassionnĂ©e de SEO et de webmarketing – Directrice chez RANKWELL

 

Bonjour tout le monde !

Parfois, dans la vie, on ne sait jamais ce qui peut nous arriver. Si c’est une situation compliquĂ©e, sur l’instant, bien Ă©videmment qu’on ne sent pas bien, et qu’on ne voit que les difficultĂ©s. Aujourd’hui, avec le recul, j’ai envie de revenir sur ce projet de thĂšse que je n’ai pas rĂ©alisĂ© Ă  cause de blocages administratifs (eh oui !), mais qui a vraiment bien Ă©voluĂ© : au lieu de soumettre une thĂšse de doctorat (je ne suis pas devenue docteure), je suis devenue auteure d’ouvrages dans un domaine incontournable du web (et surtout ma passion) actuellement : le SEO.

La discussion autour d’un sujet de thĂšse, de trouver une Ă©cole doctorale, etc. a commencĂ© en octobre 2014, et j’avais Ă  peu prĂšs les idĂ©es claires pour rĂ©diger sur un sujet (que je ne vais pas dĂ©voiler car on ne sait jamais) et les Ă©changes avec celui qui aurait pu ĂȘtre mon directeur de thĂšse, Damien Nouvel, se sont poursuivis jusqu’en 2015 quand je vois que cela bloque cĂŽtĂ© administratif et employeur de l’Ă©poque (dĂ©jĂ  embauchĂ©e plus de 9 mois dans l’entreprise … ça faisait dĂ©jĂ  3 ans que j’y Ă©tais, donc bon !).

these-doctorat-seo-veronique-duong

Premier retour sur la thùse 😉

La thĂšse aurait eu un aspect multilingue et linguistique trĂšs poussĂ©, bien Ă©videmment, car c’est l’ERTIM, l’Ă©cole doctorale de l’INALCO qui l’aurait encadrĂ©e. Quand j’ai vu ces blocages administratifs alors que tout le monde avait la bonne volontĂ© d’avancer, j’Ă©tais trĂšs « bouleversĂ©e ». Je me suis dit que je ne pourrais pas partager mes recherches et ma passion dans un manuscrit qui synthĂ©tise tout …

Mais c’est lĂ  que l’idĂ©e d’Ă©crire un livre me vient. J’ai commencĂ© Ă  contacter diffĂ©rents Ă©diteurs, et c’est grĂące Ă  mes professeurs (ou collĂšgues ? comme je suis chargĂ©e de TD dans la mĂȘme facultĂ©) que j’ai eu mon Ă©diteur qui a acceptĂ© trĂšs trĂšs rapidement mon projet original sur le SEO Baidu 🙂

La suite, vous la connaissez 🙂 … J’ai mon Knowledge Panel en tant qu’auteure dans Google : *emotions*

veronique-duong-ouvrages-seo

Comme quoi, il ne faut jamais baisser les bras ! Je suis actuellement Ă  mon troisiĂšme livre prĂȘt Ă  publier, et un 4e (version anglaise du 3e) est en cours de prĂ©paration !

Bon courage Ă  tous,

VĂ©ronique Duong – IngĂ©nieure linguiste et experte SEO et webmarketing franco chinois depuis 2010 – Directrice chez Rankwell

Bonjour tout le monde !

Lorsqu’on dĂ©bute en SEO, on n’a pas forcĂ©ment tous les outils (pour la plupart payants) Ă  disposition, mais cela ne doit pas vous empĂȘcher de vivre de votre passion (ce qui est mon cas !).

Quand j’ai commencĂ©, je n’avais absolument rien, et pas beaucoup de sous Ă  investir dans les outils. De ce fait, je me suis dĂ©brouillĂ©e avec les outils gratuits du marchĂ©, mais aussi (et heureusement) le langage Shell, le langage Perl. Mais je suis bien consciente que tout le monde ne sait pas forcĂ©ment utiliser des lignes de commandes et la konsole d’Ubuntu ou autre (Linux).

 

outils-seo-gratuits-veroduong-autoveille

Aller, c’est parti pour ma petite liste d’outils 100% gratuits pour SEO dĂ©butants :

Audit SEO :

  • Google Search Console (santĂ© du site, Ă©tat d’indexation, etc.)
  • Xenu (Crawler)
  • Web developer (un couteau suisse trĂšs utile)

Etude de mots-clés :

  • Google Keyword Planner
  • Suggestions de mots-clĂ©s de Google
  • Regarder les sites des concurrents

Netlinking :

Temps de chargement et compatibilité mobile :

  • Page Speed insights
  • Web page test
  • AMP validator

Suivi de positionnements et de trafic SEO :

serposcope-seo-veroduong-outils-seo-gratuits

Avec tous ces outils, on peut dĂ©jĂ  avoir une bonne vue d’ensemble du SEO, et quant Ă  la rĂ©alisation du projet. Pour avoir des donnĂ©es plus poussĂ©es, il vous faudra passer par les outils payants.

Si vous avez des questions, vous pouvez m’Ă©crire Ă  autoveille@gmail.com

Bon courage Ă  tous !

VĂ©ronique Duong – Directrice associĂ©e chez Rankwell et Grande PassionnĂ©e du SEO

 

Bonjour tout le monde !

Je m’adresse Ă  tous les content strategist, content specialist, toutes les personnes qui travaillent avec les contenus et qui ont besoin de les rendre SEO-friendly : On a mis en en place une solution automatique pour extraire les contenus des rubriques intĂ©ressantes (fiches produits, best sellers, actualitĂ©s, etc.) d’un site afin qu’ils puissent ĂȘtre optimisĂ©s ensuite.

A l’heure actuelle, il n’existe pas vraiment d’outils ou de logiciels gĂ©nĂ©riques (si ce n’est que des scripts sur-mesure) pour crawler les contenus textuels d’un site et qui puissent sortir des donnĂ©es exhaustives sur ces derniers.

Problématiques de Crawler de Contenu :

Est-ce que le site de mon client est optimisé sémantiquement parlant ?
➔ NON > OK, pas de chaüne de traitement à mettre en place
➔ OUI > Pour quels mots-clĂ©s ? (On n’a pas de crawler de contenu qui permet de les trouver automatiquement)
➔ Il faut ensuite calculer le poids des mots-clĂ©s dans le site au global (mais comment dĂ©terminer ce poids ?), et calculer la pertinence des pages par mots-clĂ©s (quel poids pour quel critĂšre ? et quels documents parlent de ces mots-clĂ©s ?)
➔ Pour les mots-clĂ©s, on doit calculer les positions, les volumes de recherche, les poids et pertinence de ces derniers

On aura donc besoin de deux corpus : le corpus de test (le site du client), et un corpus d’apprentissage (les sites des concurrents), par exemple.

Exemple de scraping de contenu de fiches produits (extraction brute) :

crawler-semantique-seo-veroduong

On est à la phase prototype ! Si vous voulez rejoindre ce projet innovant, écrivez-moi vite à autoveille@gmail.com ou vduong@rankwell.fr

Bon courage Ă  tous !

VĂ©ronique Duong – TAListe x SEO lover & Directrice @Rankwell

Bonjour tout le monde !

SI vous suivez mon blog depuis un moment, vous savez certainement que je suis ingénieure linguiste de formation, et je suis méga sensible aux évolutions dans le monde du traitement automatique des langues !

L’an passĂ©, j’ai fait le HackaTAL sur l’analyse d’opinions, et cela m’a rappelĂ© beaucoup d’Ă©tudes et d’analyses que je faisais en Master 2 ! C’Ă©tait gĂ©nial, j’ai adorĂ© 🙂 Et pour cause, c’Ă©tait mon Ă©quipe, Wild, qui avait gagnĂ© le HackaTAL 2017 !

Cette annĂ©e, le HackaTAL revient sur un sujet qui a Ă©tĂ© d’actualitĂ© : les Fake News !

fake-news-autoveille-veroduong-SEO

Je vous laisse découvrir le programme ci-dessous :

Description

Dans le cadre de la confĂ©rence TALN-RECITAL 2018, sera organisĂ© un hackathon, la troisiĂšme Ă©dition cĂŽtĂ© CORIA (Hack Days) et TALN (HackaTAL) et sera dĂ©diĂ© Ă  des problĂ©matiques liĂ©es Ă  la RI et au TAL. L’objectif est de rĂ©unir ces communautĂ©s autour de dĂ©fis Ă  relever Ă  l’aide de donnĂ©es et briques logicielles, en consacrant ces journĂ©es Ă  modĂ©liser, prototyper, coder, expĂ©rimenter, dĂ©velopper, tester, Ă©valuer, comparer, Ă©changer, etc. – par Ă©quipes et dans une ambiance dĂ©contractĂ©e 🙂

Les tĂąches proposĂ©es cette annĂ©e seront centrĂ©es sur la dĂ©tection et le traitement des fake news (Ă  prĂ©ciser), en interaction avec le monde des mĂ©dias et les journalistes. L’évĂ©nement est ouvert Ă  tous, ne nĂ©cessite pas de prĂ©paration particuliĂšre (sauf d’amener sa machine) et ne requiert pas de compĂ©tences spĂ©cifiques aux tĂąches que nous proposons : tout le monde est bienvenu !
TĂąches

Quelques questions parmi celles évoquées :

peut-on caractériser le langage des fake news point de vue linguistique ?
peut-on évaluer une échelle sur laquelle placer un article quant à sa vérifiabilité ?
peut-on catégoriser des articles, par exemple dans les classes suivantes : fiables / parodiques / orientés / douteux (cf Datapol Science Po) ?
comment assister au mieux un journaliste dans sa tĂąche de debunking ?
est-il possible d’utiliser des sources d’informations telles que twitter (contenu) ou bien le web (graphe des liens) pour repĂ©rer les fake news ?

Pour en savoir plus, je vous invite à aller sur le site du Hackathon : https://hackatal.github.io/2018/

Je pense m’y inscrire pour cette session car j’ai trĂšs envie de me pencher sur le sujet des Fake news aussi !

Bon courage Ă  tous !

VĂ©ronique Duong – Consultante SEO certifiĂ©e CESEO / IngĂ©nieure Linguiste / Directrice associĂ©e @Rankwell

Bonjour Ă  tous !

Je vais vous proposer une petite sĂ©rie d’interviews d’experts en ingĂ©nierie linguistique, qui pour moi, est complĂštement corrĂ©lĂ©e au SEO / rĂ©fĂ©rencement naturel ! J’ai l’honneur de commencer cette sĂ©rie avec Damien Nouvel, maĂźtre de confĂ©rences Ă  l’INALCO, et qui allait devenir mon directeur de thĂšses (mais Ă  la place, j’ai publiĂ© deux bouquins ! car on ne fait pas les choses Ă  moitiĂ© ici ;)) !

C’est parti pour l’interview :

PrĂ©sentation de l’expert TAListe :

Je suis maĂźtre de confĂ©rences Ă  l’Inalco, membre du laboratoire ERTIM. J’y travaille dans le domaine du traitement automatique des langues (TAL), en particulier sur la fouille de donnĂ©es textuelles et le multilinguisme pour une large variĂ©tĂ© de langues (occidentales et orientales) et pour des objectifs variĂ©s (translittĂ©ration, dĂ©sambiguisation lexicale, opinion, analyse textomĂ©trique, etc.). J’ai prĂ©cĂ©demment travaillĂ© au LIMSI-CNRS (extraction d’information), Ă  INRIA Alpage (mots hors-vocabulaire dans les fils de dĂ©pĂȘches). Ma thĂšse, faite dans l’équipe BDTLN du LI de Tours, a portĂ© sur la reconnaissance automatique des entitĂ©s nommĂ©es (disons les noms propres), par d’extraction automatique de motifs sĂ©quentiels (de la fouille de donnĂ©es).

Comment définirais-tu la notion de TF-IDF ?

Le TF-IDF est une mĂ©thode historique, fondĂ©e dans les annĂ©es 80, pour implĂ©menter des outils de recherche d’information. L’exemple typique est le moteur de recherche, qui doit sĂ©lectionner les documents les plus pertinents pour une requĂȘte donnĂ©e. Une simple recherche boolĂ©enne dans les index donne trop de rĂ©sultats, qui ne sont pas ordonnĂ©s. L’algorithme TF-IDF pallie cela en exploitant simultanĂ©ment le nombre d’occurrences des termes (TF) et leur importance sĂ©mantique dans la collection de documents (IDF) pour ordonner les rĂ©sultats, et prĂ©senter en haut de la liste ceux qu’un calcul statistique simple nous indique ĂȘtre les plus pertinents. D’autres algorithmes sont aujourd’hui plus performants, mais celui-ci reste fondateur car il est trĂšs fiable, solide et stable : il peut ĂȘtre implĂ©mentĂ© facilement et constitue un excellent point de dĂ©part.

tfidf-interview-damien-nouvel-autoveille

Et pour le Rappel et la Précision ?

Pour expliquer ces deux mesures de qualitĂ© de rĂ©sultats (par exemple pour un moteur de recherche), il faut faire appel Ă  deux notions complĂ©mentaires : le silence et le bruit. Le rappel indique Ă  quel point un algorithme donne tous les rĂ©sultats attendus, sinon on dit qu’il y a du silence. La prĂ©cision calcul la proportion de rĂ©sultats ramenĂ©s sont pertinents, ceux qui ne le sont pas donnent du bruit. Le dĂ©fi, en particulier en recherche d’information, est de trouver le meilleur compromis possible : il faut Ă  la fois amĂ©liorer la prĂ©cision et le rappel, ou, dit autrement, rĂ©duire le bruit et le silence ! Pour mesurer cela globalement, il existe une troisiĂšme mĂ©trique qui combine le rappel et la prĂ©cision, que l’on appelle la F-mesure, qui est la moyenne (harmonique) des deux prĂ©cĂ©dentes. Ceci dit, dans le domaine de la recherche d’information, si ces mesures restent valables, elles sont aujourd’hui moins utilisĂ©es au profit d’autres mĂ©triques plus adaptĂ©es.

Dans quels cas utilises-tu le TF-IDF ? et pourquoi ?

Le TF-DIF est implĂ©mentĂ© dans de trĂšs nombreux langages sous forme de librairies, il nĂ©cessite trĂšs peu de programmation pour son implĂ©mentation et des ressources limitĂ©es (temps de calcul ou mĂ©moire) lors de son exĂ©cution. Il est robuste et stable. Ainsi, lorsque je travaille sur des projets pour lesquels j’ai besoin de rĂ©sultats rapidement et pour lesquels les exigences ne pas trop fortes en terme de pertinence, le TF-IDF convient trĂšs bien
 si les exigences sont plus fortes, il est possible de s’en servir comme point de rĂ©fĂ©rence avant d’utiliser d’autres modĂšles plus sophistiquĂ©s, comme par exemple le LSA.
Il faut cependant noter que le TF-IDF n’exploite que les textes des documents. Ceci peut-ĂȘtre un avantage pour les bases documentaires, mais un inconvĂ©nient si des liens sont faits entre les documents (sur le web, les hyperliens) : ils apportent une information trĂšs importante, qui ne sera pas prise en compte par TF-IDF.

Aurais-tu un exemple concret liĂ© Ă  l’usage du TF-IDF ?

Une entreprise vous sollicite pour mettre en place un moteur de recherche interne sur ses documents et l’intĂ©grer Ă  son portail. Elle ne sait quel moteur choisir, s’il lui faut une solution gratuite ou payante et quelles technologies sont adĂ©quates. Vous pouvez alors facilement et rapidement lui proposer un dĂ©veloppement prĂ©liminaire : mettre en place un TF-IDF, permettre aux utilisateur de faire leurs premiĂšres requĂȘtes, avant d’analyser les limites de cette premiĂšre approche. Par la suite, selon les retours, il pourra ĂȘtre prioritaire d’amĂ©liorer le moteur, mais peut-ĂȘtre aussi de travailler sur la qualitĂ© des documents, la crĂ©ation de ressources adĂ©quates pour amĂ©liorer les recherche, la mise en place d’autres fonctionnalitĂ©s, etc. !

Comment vois-tu l’avenir du TAL ?

Plusieurs pistes Ă©mergent aujourd’hui. Les derniĂšres avancĂ©es cĂŽtĂ© recherche se sont beaucoup focalisĂ©es sur l’utilisation gĂ©nĂ©ralisĂ©e du Deep Learning, qui a de nombreuses applications et rĂ©duisent les difficultĂ©s Ă  mettre en Ɠuvre certains traitements, en particulier pour la sĂ©mantique. Les progrĂšs en reconnaissance vocale et l’engouement rĂ©cent pour les systĂšmes de dialogues (dont les chatbots / robots) sont Ă©galement trĂšs en vue et vont certainement remodeler en profondeur le paysage du TAL, Ă  l’international comme en France. Nous constatons Ă©galement l’impact, parfois trop peu visible, des systĂšmes de gĂ©nĂ©ration automatique de contenus (dont textuel), autant sur les forums que dans les mĂ©dias et les rĂ©seaux sociaux, il faut ĂȘtre vigilant Ă  cet Ă©gard, ĂȘtre conscient des limites et des risques, les utiliser Ă  bon escient ! En lien avec cela, je me penche ces derniers temps sur la dĂ©tection et la caractĂ©risation des Fake News, qui reprĂ©sente Ă  mes yeux un enjeu scientifique et sociĂ©tal majeur, nous allons d’ailleurs organiser un hackathon sur le sujet en mai.
Sur le fond, et comme je le dis souvent aux Ă©tudiants, il me semble que le TAL doit rester une discipline qui “permette aux humains de manipuler le langage par d’autres moyens et Ă  une autre Ă©chelle”. Il est essentiel Ă  mes yeux que les outils, ressources et technologies que nous dĂ©veloppons restent au service du plus grand nombre !

Merci infiniment Ă  Damien Nouvel d’avoir acceptĂ© de rĂ©pondre Ă  cette interview hyper enrichissante !

J’espĂšre que vous comprenez mieux l’intĂ©rĂȘt du TAL maintenant, et pourquoi je vous rabĂąche avec cela dans le monde du SEO 😉 C’est complĂ©tement liĂ© !

Bon courage Ă  tous,

VĂ©ronique Duong – Directrice associĂ©e chez Rankwell et consultante SEO certifiĂ©e CESEO !

Bonjour tout le monde !

Cela fait un peu plus d’un mois que j’ai donnĂ© mon interview / webinar / Face Ă  Face avec SEMRush, et pour ceux qui n’ont pas pu suivre le « Face to Face« , je vous mets les questions de SEMRush auxquelles j’ai rĂ©pondues, avec mes rĂ©ponses pour chacune d’entre elles.

Le webinar a durĂ© 1h, et c’Ă©tait trĂšs intĂ©ressant de partager mon parcours professionnel et ma vision du SEO Google et Baidu pour 2018.

Voici les questions posĂ©es par SEMRush (je ne mets pas toutes mes rĂ©ponses dans l’article, mais voici Ă  peu prĂšs mes rĂ©ponses importantes) :

Face à Face avec Véronique Duong

  1. Tu es relativement connue au sein de la communauté SEO francophone mais pour les gens qui ne te connaissent pas, parle nous un peu de toi ?
  2. Pourquoi le SEO ? Comment tu t’es lancĂ©e dans ce domaine d’activitĂ© ? Qu’est-ce qui t’intĂ©resse le plus en SEO ? VĂ©ro : Les tests techniques, et de voir quand ils fonctionnent !
  3. En environ 5-6 ans tu as rĂ©ussi Ă  t’imposer dans le milieu du SEO français mais Ă©galement en Asie, tu es l’une des stars montantes du SEO, explique-nous cette fulgurante ascension.
  4. Actuellement, tu es gĂ©rante/directrice des opĂ©rations chez Rankwell, rĂ©dactrice de contenu sur ton blog Autoveille, formatrice SEO Ă  l’INALCO (institut des langues) et prĂ©sidente du SEO Camp ! Comment gĂšres-tu tes journĂ©es ? VĂ©ro : J’en parle parfois dans mes articles concernant ma vie de consultante SEO, et j’ai une vraie organisation assez tenace pour tout faire entrer dans mon planning ! Les week-ends, je suis sur mon blog AUTOVEILLE, la semaine je suis Ă  fond sur RANKWELL, et le SEO Camp, et je donnais des cours de SEO Ă  des Master 2 tous les vendredis matins pendant le printemps 2017. Je pense renouveler l’expĂ©rience si le temps me le permet.
  5. Être prĂ©sidente du SEO Camp, que cela signifie pour toi ? Beaucoup de choses, mais surtout que je suis capable d’endosser une telle responsabilitĂ©, et que les SEO souhaitent aussi la diffĂ©rence : une femme, d’origine asiatique, jeune, et qui est Ă  la fois spĂ©cialisĂ©e sur le SEO occidental et le SEO asiatique.
  6. Tu es experte en SEO sur Baidu, pour notre audience, est-ce que tu peux nous donner quelques astuces importantes pour améliorer son référencement sur Baidu ?
  7. Peux-tu nous citer les outils que tu utilises ou bien que tu conseilles à tes clients pour élaborer une campagne SEO ?
  8. Le rĂ©fĂ©rencement naturel est en constante Ă©volution, par quels moyens tu te tiens au courant de l’actualitĂ©, des derniĂšres informations… ?
  9. Quelles sont selon toi, les tendances pour le SEO en 2018 ? Sur quoi concentrer sa stratégie SEO pour 2018 ?

Vidéo Marketing :

  1. Il est vrai que le contenu vidĂ©o est en plein essor, (plus d’1 milliard d’utilisateur sur YouTube), mais comment se dĂ©marquer de toutes ces vidĂ©os ?
  2. Quelle type de contenu vidĂ©o faut-il crĂ©er ? Y-a-t-il des rĂšgles Ă  respecter ? Comment optimiser une vidĂ©o ? Existe-t-il des outils ? Je pense qu’il n’y a pas de rĂšgles toutes dĂ©finies, mais des contenus informatifs, Ă©ducatifs, sont Ă  priser. Par exemple, je pense me mettre Ă  vloguer sur les sujets liĂ©s au marketing, au webmarketing que ça soit en Europe ou en Asie ! Si je m’adresse au public de Hong Kong, je parlerai cantonais pour leur prĂ©senter les systĂšmes europĂ©ens, et vice versa 😉 J’espĂšre que cela intĂ©ressera du monde haha !

Optimisation de contenu :

  1. D’aprĂšs notre Ă©tude sur les RF, un contenu plus long est plus souvent prĂ©sent dans les top rĂ©sultats Google, donc faudra-t-il continuĂ© Ă  privilĂ©gier ce genre de contenu en 2018 ? Oui, clairement ! Une page contenant plus de 1200 mots a plus de chance d’ĂȘtre crawlĂ©e par Google (donc d’ĂȘtre rĂ©-indexĂ©e, et d’ĂȘtre classĂ©e par la suite).
  2. A ton avis, est-il mieux de crĂ©er du contenu viral sans optimisation SEO ou crĂ©er un article de qualitĂ© moyenne avec un bon rĂ©fĂ©rencement ? Je dirais qu’il faut les deux : du contenu chaud, limite buzz pour dynamiser la marque ou le nom, et des contenus froids dans le but de maintenir le SEO du site avec de nouvelles landing pages Ă  chaque fois.

Recherche Vocale (Voice Search) :

  1. La recherche vocale devient-elle de plus en plus importante pour le référencement naturel ? Et quelles conséquences sur le SEO ?
  2. Quelles optimisation SEO pour la recherche vocale ? Google veut des questions, et qu’on rĂ©ponde aux questions 🙂
  3. Faut-il craindre les appareils Google Home/ Amazon Echo pour sa vie privĂ©e ? Non, pas vraiment, et d’ailleurs j’en voudrais un !

Mobile (index mobile first, AMP, instant apps) :

  1. Tu as affirmĂ© dans l’un de tes articles qu’en Chine, les volumes de recherche sur mobile explosent par rapport Ă  ceux qui proviennent des PC ! Tu peux nous expliquer pourquoi ce n’est pas encore le cas en France, en Europe et mĂȘme aux US ? Je pense que les usages sont encore assez diffĂ©rents en Europe vs US vs Asie. En Asie, le mobile a explosĂ© avec l’arrivĂ©e de WeChat qui est une app permettant de tout faire ! En Occident, on n’a pas encore l’habitude d’utiliser une seule et mĂȘme app qui agrĂšge tout. On a une app pour chaque chose : commander de la nourriture, un taxi, trouver un resto, etc. Alors que WeChat fait tout ! MĂȘme outil de communication B2B !
  2. Que faire pour ĂȘtre considĂ©rĂ© comme Index Mobile First ? Et que se passe-t-il si mon site n’est pas Ă  jour ?
  3. Quelles sont les points indispensables pour maintenir la présence de recherche mobile sur mon site ?
  4. A partir de FĂ©vrier 2018, il sera obligatoire d’afficher le mĂȘme contenu sur une page web classique et sa version AMP, sous peine de non prise en compte de cette derniĂšre par Google ! Qu’en penses-tu ? (Source abondance). Je ne pense pas que Google soit si radical que ça, mais effectivement, l’AMP devient juste indispensable, et ne pas s’y mettre, c’est un peu « ne pas se mettre Ă  jour » et « suivre la tendance actuelle ». MĂȘme pour la Chine, le MIP devient un must-have !

Réseaux sociaux :

  1. Les réseaux sociaux un facteur important pour le SEO ? Pourquoi ? (Petite réponse rapide de ma part pour cet article : Les signaux des réseaux sociaux (abonnés, likes, partages, interactions générales sont trÚs importants pour le SEO sur Baidu).
  2. Faut-il crĂ©er un compte social en fonction des diffĂ©rents pays ou notre sociĂ©tĂ© est implĂ©mentĂ© ? Je dirais qu’il faut vraiment s’adapter Ă  la culture locale, et ĂȘtre lĂ  oĂč sont les habitants locaux 🙂 Exemple : ĂȘtre sur VKontakte pour la Russie, ĂȘtre sur CafĂ© Naver, pour Naver en CorĂ©e, ĂȘtre sur WeChat en Chine !

Linkbuilding :

  1. Quels sont tes conseils pour faire du Netlinking à la meilleure façon. Comment trouver les liens ?
  2. Comment tu trouves tes ressources ? Partage ton expĂ©rience comment bien organiser ta stratĂ©gie d’information ?
  3. Comment tu combats les liens de mauvaise qualité ? Et les liens toxiques ?
  4. As-tu d’autres choses à rajouter ?

VoilĂ  Ă  peu prĂšs les questions que j’ai eues ^^

Voici le lien de la vidéo du live que vous pouvez voir et revoir !

Face à face avec Véronique Duong

Testez SEMRush sans plus attendre :

semrush-test-gratuit-veronique-duong

Bon courage Ă  tous !

VĂ©ronique Duong – SpĂ©cialiste SEO passionnĂ©e

Bonjour tout le monde !

Dans un autre article, je vous expliquais que j’utilisais des ontologies sĂ©mantiques pour crĂ©er des relations sĂ©mantiques entre les pages d’un site (surtout depuis le menu), et aujourd’hui, je vais vous parler d’une autre notion en linguistique, la taxinomie 🙂

DĂ©jĂ , qu’est ce que c’est que la taxinomie en linguistique ? Voici une dĂ©finition scientifique du terme : « Classification d’Ă©lĂ©ments, de suites d’Ă©lĂ©ments formant des listes qui permettront, par leurs rĂšgles de combinaison, de rendre compte des phrases d’une langue (d’apr. Ling. 1972). » Source : http://www.cnrtl.fr/lexicographie/taxinomie

Il ne faut pas confondre la taxinomie et la taxonomie. C’est effectivement deux choses diffĂ©rentes : La taxinomie concerne plus spĂ©cialement les questions de classification, tandis que la taxonomie se rapporte strictement aux questions de nomenclature, de liste.

On rencontre trĂšs souvent des taxinomies en biologie et dans le monde scientifique.

Voici un exemple de taxinomie des bactéries :

classification-taxonomie-des-bacteries-autoveille

Source : http://andryrasamindrakotroka.e-monsite.com/medias/album/classification-taxonomie-des-bacteries-5.jpg

Comme pour les ontologies, on part du plus gĂ©nĂ©rique au plus spĂ©cifique. Mais vous allez vous demander ce qu’est la diffĂ©rence entre ontologies et taxinomies. Voici les dĂ©finitions des deux termes :

L’ontologie est faite pour dĂ©crire le monde tel qu’il est. L’ontologie cherche Ă  dĂ©crire de façon formelle un domaine de connaissance, en identifiant les types d’objets de ce domaine, leurs propriĂ©tĂ©s et leurs relations. En SEO, c’est plutĂŽt les ontologies qu’on utilise car on est dans un mode de « relations » (et plus exactement de « relations sĂ©mantiques »).

Exemple d’ontologie oĂč on voit les liens sĂ©mantiques :

ontologie-liens-semantiques-SEO-vduong

Source : upload.wikimedia.org/wikipedia/commons/b/b1/Mason-ontology.png

La taxinomie est fait pour classer des ressources dans des dossiers, des catĂ©gories. En d’autres termes, elle dĂ©signe la « science de la classification » et par extension tout systĂšme de classification/catĂ©gorisation. Donc, en SEO, les taxinomies peuvent nous aider bien structurer un site par exemple, en classant les diffĂ©rentes pages, Ă  diffĂ©rents niveaux.

Ce sont vraiment deux concepts diffĂ©rents en linguistique qui peuvent ĂȘtre trĂšs intĂ©ressants Ă  appliquer en SEO comme vous pouvez le constater lĂ .

Si cela vous intĂ©resse, je vous ferais aussi un petit article sur les mesures de Rappel et PrĂ©cision que j’ai adorĂ©es utiliser en Master pour faire des statistiques textuelles !

Bon courage Ă  tous !

VĂ©ronique Duong – Consultante SEO certifiĂ©e et passionnĂ©e

%d blogueurs aiment cette page :