archive

Archives de Tag: Traitement automatique des langues

Bonjour Ă  tous !

Je vais vous proposer une petite sĂ©rie d’interviews d’experts en ingĂ©nierie linguistique, qui pour moi, est complĂštement corrĂ©lĂ©e au SEO / rĂ©fĂ©rencement naturel ! J’ai l’honneur de commencer cette sĂ©rie avec Damien Nouvel, maĂźtre de confĂ©rences Ă  l’INALCO, et qui allait devenir mon directeur de thĂšses (mais Ă  la place, j’ai publiĂ© deux bouquins ! car on ne fait pas les choses Ă  moitiĂ© ici ;)) !

C’est parti pour l’interview :

PrĂ©sentation de l’expert TAListe :

Je suis maĂźtre de confĂ©rences Ă  l’Inalco, membre du laboratoire ERTIM. J’y travaille dans le domaine du traitement automatique des langues (TAL), en particulier sur la fouille de donnĂ©es textuelles et le multilinguisme pour une large variĂ©tĂ© de langues (occidentales et orientales) et pour des objectifs variĂ©s (translittĂ©ration, dĂ©sambiguisation lexicale, opinion, analyse textomĂ©trique, etc.). J’ai prĂ©cĂ©demment travaillĂ© au LIMSI-CNRS (extraction d’information), Ă  INRIA Alpage (mots hors-vocabulaire dans les fils de dĂ©pĂȘches). Ma thĂšse, faite dans l’équipe BDTLN du LI de Tours, a portĂ© sur la reconnaissance automatique des entitĂ©s nommĂ©es (disons les noms propres), par d’extraction automatique de motifs sĂ©quentiels (de la fouille de donnĂ©es).

Comment définirais-tu la notion de TF-IDF ?

Le TF-IDF est une mĂ©thode historique, fondĂ©e dans les annĂ©es 80, pour implĂ©menter des outils de recherche d’information. L’exemple typique est le moteur de recherche, qui doit sĂ©lectionner les documents les plus pertinents pour une requĂȘte donnĂ©e. Une simple recherche boolĂ©enne dans les index donne trop de rĂ©sultats, qui ne sont pas ordonnĂ©s. L’algorithme TF-IDF pallie cela en exploitant simultanĂ©ment le nombre d’occurrences des termes (TF) et leur importance sĂ©mantique dans la collection de documents (IDF) pour ordonner les rĂ©sultats, et prĂ©senter en haut de la liste ceux qu’un calcul statistique simple nous indique ĂȘtre les plus pertinents. D’autres algorithmes sont aujourd’hui plus performants, mais celui-ci reste fondateur car il est trĂšs fiable, solide et stable : il peut ĂȘtre implĂ©mentĂ© facilement et constitue un excellent point de dĂ©part.

tfidf-interview-damien-nouvel-autoveille

Et pour le Rappel et la Précision ?

Pour expliquer ces deux mesures de qualitĂ© de rĂ©sultats (par exemple pour un moteur de recherche), il faut faire appel Ă  deux notions complĂ©mentaires : le silence et le bruit. Le rappel indique Ă  quel point un algorithme donne tous les rĂ©sultats attendus, sinon on dit qu’il y a du silence. La prĂ©cision calcul la proportion de rĂ©sultats ramenĂ©s sont pertinents, ceux qui ne le sont pas donnent du bruit. Le dĂ©fi, en particulier en recherche d’information, est de trouver le meilleur compromis possible : il faut Ă  la fois amĂ©liorer la prĂ©cision et le rappel, ou, dit autrement, rĂ©duire le bruit et le silence ! Pour mesurer cela globalement, il existe une troisiĂšme mĂ©trique qui combine le rappel et la prĂ©cision, que l’on appelle la F-mesure, qui est la moyenne (harmonique) des deux prĂ©cĂ©dentes. Ceci dit, dans le domaine de la recherche d’information, si ces mesures restent valables, elles sont aujourd’hui moins utilisĂ©es au profit d’autres mĂ©triques plus adaptĂ©es.

Dans quels cas utilises-tu le TF-IDF ? et pourquoi ?

Le TF-DIF est implĂ©mentĂ© dans de trĂšs nombreux langages sous forme de librairies, il nĂ©cessite trĂšs peu de programmation pour son implĂ©mentation et des ressources limitĂ©es (temps de calcul ou mĂ©moire) lors de son exĂ©cution. Il est robuste et stable. Ainsi, lorsque je travaille sur des projets pour lesquels j’ai besoin de rĂ©sultats rapidement et pour lesquels les exigences ne pas trop fortes en terme de pertinence, le TF-IDF convient trĂšs bien
 si les exigences sont plus fortes, il est possible de s’en servir comme point de rĂ©fĂ©rence avant d’utiliser d’autres modĂšles plus sophistiquĂ©s, comme par exemple le LSA.
Il faut cependant noter que le TF-IDF n’exploite que les textes des documents. Ceci peut-ĂȘtre un avantage pour les bases documentaires, mais un inconvĂ©nient si des liens sont faits entre les documents (sur le web, les hyperliens) : ils apportent une information trĂšs importante, qui ne sera pas prise en compte par TF-IDF.

Aurais-tu un exemple concret liĂ© Ă  l’usage du TF-IDF ?

Une entreprise vous sollicite pour mettre en place un moteur de recherche interne sur ses documents et l’intĂ©grer Ă  son portail. Elle ne sait quel moteur choisir, s’il lui faut une solution gratuite ou payante et quelles technologies sont adĂ©quates. Vous pouvez alors facilement et rapidement lui proposer un dĂ©veloppement prĂ©liminaire : mettre en place un TF-IDF, permettre aux utilisateur de faire leurs premiĂšres requĂȘtes, avant d’analyser les limites de cette premiĂšre approche. Par la suite, selon les retours, il pourra ĂȘtre prioritaire d’amĂ©liorer le moteur, mais peut-ĂȘtre aussi de travailler sur la qualitĂ© des documents, la crĂ©ation de ressources adĂ©quates pour amĂ©liorer les recherche, la mise en place d’autres fonctionnalitĂ©s, etc. !

Comment vois-tu l’avenir du TAL ?

Plusieurs pistes Ă©mergent aujourd’hui. Les derniĂšres avancĂ©es cĂŽtĂ© recherche se sont beaucoup focalisĂ©es sur l’utilisation gĂ©nĂ©ralisĂ©e du Deep Learning, qui a de nombreuses applications et rĂ©duisent les difficultĂ©s Ă  mettre en Ɠuvre certains traitements, en particulier pour la sĂ©mantique. Les progrĂšs en reconnaissance vocale et l’engouement rĂ©cent pour les systĂšmes de dialogues (dont les chatbots / robots) sont Ă©galement trĂšs en vue et vont certainement remodeler en profondeur le paysage du TAL, Ă  l’international comme en France. Nous constatons Ă©galement l’impact, parfois trop peu visible, des systĂšmes de gĂ©nĂ©ration automatique de contenus (dont textuel), autant sur les forums que dans les mĂ©dias et les rĂ©seaux sociaux, il faut ĂȘtre vigilant Ă  cet Ă©gard, ĂȘtre conscient des limites et des risques, les utiliser Ă  bon escient ! En lien avec cela, je me penche ces derniers temps sur la dĂ©tection et la caractĂ©risation des Fake News, qui reprĂ©sente Ă  mes yeux un enjeu scientifique et sociĂ©tal majeur, nous allons d’ailleurs organiser un hackathon sur le sujet en mai.
Sur le fond, et comme je le dis souvent aux Ă©tudiants, il me semble que le TAL doit rester une discipline qui “permette aux humains de manipuler le langage par d’autres moyens et Ă  une autre Ă©chelle”. Il est essentiel Ă  mes yeux que les outils, ressources et technologies que nous dĂ©veloppons restent au service du plus grand nombre !

Merci infiniment Ă  Damien Nouvel d’avoir acceptĂ© de rĂ©pondre Ă  cette interview hyper enrichissante !

J’espĂšre que vous comprenez mieux l’intĂ©rĂȘt du TAL maintenant, et pourquoi je vous rabĂąche avec cela dans le monde du SEO 😉 C’est complĂ©tement liĂ© !

Bon courage Ă  tous,

VĂ©ronique Duong – Directrice associĂ©e chez Rankwell et consultante SEO certifiĂ©e CESEO !

Publicité

Bonjour tout le monde !

Quand j’Ă©tais Ă©tudiante en ingĂ©nierie linguistique, on a eu des cours et des projets pour nous apprendre Ă  construire des ontologies sĂ©mantiques pour un domaine donnĂ©.

On travaillait beaucoup sur de la terminologie et de l’analyse sĂ©mantique. J’aimais beaucoup ça, et c’est vrai que grĂące au SEO, je refais parfois des ontologies, c’est-Ă -dire des graphes reprĂ©sentant des relations sĂ©mantiques. Cela ressemble Ă  ça :

Ontologie - Graphe relations sémantique - AUTOVEILLE

Source : http://theses.ulaval.ca/archimede/fichiers/24629/24629_9.png

En SEO, on part aussi du plus générique au plus spécifique. Quand je dois établir une étude de mots-clés pour un site, je pars de son menu (souvent il contient les termes plus génériques), et plus on va en catégories et sous-catégories, plus on aura des choses spécifiques. Par exemple, pour un site sur les VTT, on peut avoir une ontologie sémantique comme celle-ci qui est assez bien détaillée :

ontologie-vduong-web-semantique-VTT

Source : http://www.referencement-naturel-white-hat.fr/images/cocon-semantique-type.png

Cela permet de relier toutes les pages entre elles, et d’avoir un super maillage interne aussi !

Si vous n’avez pas fait ce travail de relation sĂ©mantique entre vos pages, vous pourriez commencer Ă  y songer car c’est important pour les utilisateurs (thĂ©matiques prĂ©cises) comme pour les moteurs de recherche. Un tel maillage sĂ©mantique entre vos pages va vous permettre d’atteindre des scores sĂ©mantiques beaucoup plus intĂ©ressants. Pour trouver les mots-clĂ©s spĂ©cifiques, j’utilise le Keyword Planner.

Si vous voulez savoir la formation que j’ai faite en Master, c’est le Master Conception de Documentation Multilingue et MultimĂ©dia et le Master IngĂ©nierie Linguistique

Une question ? écrivez moi à autoveille@gmail.com ou vduong@rankwell.fr

Bon courage Ă  tous !

VĂ©ronique Duong – Consultante SEO certifiĂ©e CESEO 2014  et IngĂ©nieure Linguiste (de formation)

Bonjour tout le monde !

Comme vous le savez tous, de formation, je suis ingĂ©nieure linguiste, et je suis autant passionnĂ©e par le TAL que par le SEO. Je dirais toujours que c’est le TAL qui m’a menĂ©e vers le SEO car j’ai vu le lien entre ces deux domaines dĂšs le dĂ©but : Linguistique x Informatique en TAL, et SĂ©mantique x Technique en SEO. Je me dĂ©finirais toujours comme une spĂ©cialiste du SEO et du Traitement Automatique des Langues. Il y a moins d’Ă©vĂ©nements sur le TAL que le SEO, et je trouve cela extrĂȘmement dommage car le TAL, la science du langage a tout le mĂ©rite de se faire connaĂźtre.

En TAL, on produit des outils, des scripts qui servent, qui sont utiles pour des expĂ©riences scientifiques, et cela permet de faire progresser la R&D pour beaucoup de choses. Typiquement, j’utilise mes compĂ©tences en TAL pour automatiser certaines phases super chronophages (nettoyage des textes, optimisation des mĂ©ta tags, etc.). autant que possible.

Pendant ce HackaTAL 2017 qui s’est dĂ©roulĂ© Ă  OrlĂ©ans, au Lab’O (incubateur de start-ups dans le numĂ©rique), on a eu droit Ă  quelques petites confĂ©rences d’entreprises spĂ©cialisĂ©es dans le TAL, telles que Recital (gĂ©nĂ©ration de rĂ©sumĂ© automatique), Mood Messenger, etc.

On avait des tùches trÚs précises à réaliser, et voici les consignes officielles :

TĂąches

1. Résumé automatique de commentaires sur des produits en ligne

Objectifs

Dans le cadre de la promotion de produits sur les plateformes en ligne, l’apprĂ©ciation peut ĂȘtre analysĂ©e Ă  partir des retours utilisateurs (User Generated Content). Ces derniers peuvent se prĂ©senter : notes, Ă©toiles, mais aussi avis et commentaires textuels. Les notes n’étant pas toujours en adĂ©quation avec les contenus textuels, de plus en plus d’acteurs cherchent Ă  qualifier l’opinion des utilisateurs et Ă  dĂ©terminer quels sont leurs arguments.

La thĂ©matique est orientĂ©e sur les avis et commentaires concernant l’offre de logements en rĂ©gion centre (particuliers, auberges, hĂŽtels, luxe, etc.). Il s’agira de construire un rĂ©sumĂ© automatique des commentaires, Ă  partir des arguments dĂ©tectĂ©s dans ces derniers, Ă  comparer aux notes et/ou Ă  la description. Ce rĂ©sumĂ© orientĂ© devra ĂȘtre sĂ©parĂ© en deux champs principaux : points positifs et points nĂ©gatifs sur des critĂšres communs : accueil, confort, services, propretĂ©, accessibilitĂ©, etc. D’autres champs peuvent ĂȘtre proposĂ©s par les participants selon les arguments extraits Ă  partir des commentaires.

Sous tĂąches

  • Traitement / dĂ©bruitage de donnĂ©es UGC
  • DĂ©tection et extraction d’arguments
  • AgrĂ©gation des valeurs par produits
  • DĂ©tection et rĂ©solution de contradictions
  • RĂ©sumĂ© automatique d’opinions sur les aspects

Données et évaluation

Collection de données représentant chaque produit en ligne (champs de description du produit, notes ou étoiles, liste des commentaires associés) en français et en anglais. Les données seront fournies sous-forme de corpus (pour le corpus collecté sur Internet) et/ou via des liens à télécharger (pour les données fournies par les partenaires, à préciser).

L’évaluation portera sur la capacitĂ© Ă  calculer automatiquement les scores pour chaque catĂ©gorie d’évaluation du produit (accueil, propretĂ©, emplacement, etc.). Pour chacun de ces scores, un argumentaire rĂ©sumĂ© automatiquement devra ĂȘtre fourni qui pourra faire l’objet d’évaluation qualitatives.

2. Identification des tendances stratégiques liées aux brevets

Objectifs

La stratĂ©gie de dĂ©pĂŽt de brevets par des entreprises ou des individus reprĂ©sente un enjeu considĂ©rable, qui a donnĂ© lieu Ă  des affaires mondialement connues (Apple vs Samsung, Microsoft vs Google). Cet outil juridique reste cependant difficilement accessible pour les entreprises de petite taille ou les individus. En particulier, il n’est pas Ă©vident de dĂ©terminer quelles technologies vont avoir tendance Ă  ĂȘtre l’objet de brevets, dans une optique de veille ou de prĂ©servation de la propriĂ©tĂ© intellectuelle.

La tĂąche proposĂ©e vise Ă  mieux modĂ©liser les mĂ©canismes qui permettent de prĂ©dire l’apparition de brevets pour des technologies en essor, par utilisation de mĂ©thodes d’IA et de TAL (terminologie et expressions multi-mots, catĂ©gorisation des brevets, Ă©volution des termes et des n-grams, prĂ©diction de tendances). L’objectif est de dĂ©terminer, au regard des donnĂ©es collectĂ©es sur des brevets (par ex. distribution des termes entre 2001 et 2009), quels brevets seront dĂ©posĂ©s (par ex. en 2010). Pour illustration : si “tactile” est recensĂ© avec une grande montĂ©e en 2010, pouvait-on prĂ©dire cette montĂ©e en exploitant les donnĂ©es de la dĂ©cennie prĂ©cĂ©dente ?

Sous tĂąches

  • PrĂ©traitement du langage et de la structure des brevets
  • Extraction de terminologies liĂ©es aux technologies
  • Comparaison des termes des brevets avec les sites technologiques
  • DĂ©tection de signaux faibles
  • Analyse et prĂ©diction de tendances

De mon cĂŽtĂ©, je me suis penchĂ©e sur le rĂ©sumĂ© automatique de commentaires sur des produits en ligne. J’ai dĂ©jĂ  eu des sujets similaires Ă  traiter, et je trouve cela plus concret et utilisable tout de suite derriĂšre (une fois que le script est prĂȘt, l’outil peut servir !! 🙂 ) On Ă©tait une Ă©quipe de 3 : deux dĂ©veloppeurs web et moi. La technologie utilisĂ©e Ă©tait du PHP, des Regex, de l’Ă©tiquetage de donnĂ©es, et la stratĂ©gie Ă©tait d’utiliser les mots ayant le plus de poids dans une phrase (adverbe, adjectifs, verbes). Avec cette mĂ©thode, on a eu un Rappel de prĂšs de 80% ! (Rappel = le nombre de documents correctement retrouvĂ© dans sa classe, PrĂ©cision = le nombre de documents correctement attribuĂ© dans sa classe (ex : pour le rappel, cela veut dire que le commentaire a bien Ă©tĂ© retrouvĂ© dans telle ou telle catĂ©gorie automatiquement, et la prĂ©cision correspond au fait si le commentaire est bien attribuĂ© positif / neutre / nĂ©gatif).

C’est mon Ă©quipe qui a gagnĂ© le HackaTAL 2017 !!! Je suis trĂšs contente que ma stratĂ©gie / rĂ©flexion marche (avec les ADJ, les ADV, etc.), et on s’est bien dĂ©brouillĂ© avec les dĂ©veloppeurs ! Un Grand MERCI Ă  Nicolas Le Flohic et Fanny Jan, mes co-Ă©quipiers.

hackatal 2017 - équipe Wild gagnante

Voici quelques clichés du HackaTAL 2017 :

La jolie photo de souvenirs devant le logo du Lab’O !

Présentations des projets de chaque équipe :

Ca code, ça code !! Prùs de 48 heures de scripting 😉

Toutes les Ă©quipes ont bien travaillĂ©es, et ce sont donnĂ©es Ă  200% !!! Un week-end intense avec de belles rencontres, des Ă©changes hyper intĂ©ressants, et … cela m’a redonnĂ©e une folle envie de me remettre dans le TAL !!

En tout cas, une chose est sĂ»r, la Science du Langage est une science qui a beaucoup d’avenir :

Je pense qu’il y a moyen qu’un jour, je retourne Ă  100% dans les Sciences du Langage, dans le Traitement Automatique des Langues. On verra ce que la vie me donnera !

J’espĂšre que cet article vous aura plu, il change un peu du SEO 😉

Un Ă©norme merci Ă  Damien Nouvel (ERTIM / INALCO), au Lab’O et tous ceux qui ont organisĂ© cet superbe Ă©vĂ©nement concret et intense !

Bon courage Ă  tous,

VĂ©ronique Duong – IngĂ©nieure Linguiste … avant tout 🙂 !

Bonjour tout le monde !

Je ne pensais jamais vous parler du langage R sur ce blog ! Pour moi, R Ă©tait un outil que j’ai utilisĂ© en Master 2 d’IngĂ©nierie Linguistique, et que je ne m’en servirais pas pour le SEO ou le monde professionnel … eh bah non ! R est un outil pour calculer, gĂ©rer les statistiques, et il s’avĂšre trĂšs puissant et plus flexible que certains outils sur le marchĂ© !

J’ai mis en place une petite veille informationnelle pour voir les publications qui remontent sur R, et mon logiciel de veille a crawlĂ© une infographie sur les caractĂ©ristiques de R, et ça tombe parfaitement bien. L’illustration est signĂ©e IntelliPaat (agence digitale de big data et de e-learning indienne).

Pourquoi faut-il utiliser le langage R ?

  1. C’est Open-source et le logiciel couvre un large Ă©ventail de calculs statistiques
  2. Comparable et mĂȘme supĂ©rieur Ă  certains outils payants sur le marchĂ©
  3. Disponible pour Windows, Linux et Mac
  4. En plus des opĂ©rations statistiques, c’est une Konsole, donc un outil de programmation, qui automatise vos analyses et qui crĂ©e de nouvelles fonctions
  5. Structure de programmation orientée objet (POO)
  6. Les données sont enregistrées par session, donc pas besoin de les ressaisir à chaque fois
  7. Comme c’est un outil open-source, il y a une vague communautĂ© de statisticiens qui l’utilisent et qui sont prĂȘts Ă  vous aider

Voici l’infographie en question :

Langage R : les caractéristiques - SEO - AUTOVEILLE

J’ai retrouvĂ© mes cours de M2 sur R, et on s’en servait surtout pour calculer la frĂ©quence des mots-clĂ©s dans des corpus, on faisait des matrices, des graphes, etc. Voici un petit extrait d’un de mes exercices Ă  l’Ă©poque :

Langage R - Statistiques textuelles - AUTOVEILLE

Cela fait 5 ans que je n’en ai pas fait, mais je vais m’y remettre ! C’est un langage que je connais, et je ne veux pas laisser passer cette opportunitĂ© ! 🙂

Et vous ? programmez-vous en R ?

Si vous avez la moindre question sur le traitement automatique des langues, le SEO, l’automatisation de la veille stratĂ©gique, etc. Ă©crivez-moi Ă  autoveille@gmail.com

Bon courage Ă  tous !

VĂ©ronique Duong – Consultante SEO certifiĂ©e CESEO

 

Bonjour Ă  tous,

Dans l’article d’aujourd’hui, nous nous intĂ©ressons aux systĂšmes et aux mĂ©thodes d’indexation et de rĂ©fĂ©rencement de Google. En effectuant une veille stratĂ©gique sur les algorithmes de Google, mon logiciel de veille m’a rapatriĂ© un article trĂšs intĂ©ressant portant sur le fonctionnement des crawlers et des diffĂ©rents autres composants de Google. Cet article a Ă©tĂ© rĂ©digĂ© par les deux fondateurs de Google, Sergey Brin et Larry Page. Vous pouvez lire cet article en suivant le lien sur le site de Stanford.edu

MĂȘme si les algorithmes du moteur sont confidentiels, grĂące au schĂ©ma fourni dans l’article, on peut tout de mĂȘme mieux comprendre comment marche l’indexation chez Google. Dans le livre d’Olivier Andrieu, on peut lire que Google possĂ©derait deux index : un index principal (oĂč il faut absolument y ĂȘtre pour ĂȘtre visible) et un index secondaire (pages dupliquĂ©es, pages ayant peu de liens externes, pages « mal liĂ©es », etc.).

Voici l’architecture « high level » (comme le dĂ©crit les fondateurs) de Google :

Architecture des composants de Google - AUTOVEILLE

 

Source : Stanford (Article rédigé par Sergey Brin et Larry Page)

Voici ce que les fondateurs expliquent par rapport Ă  cette structure [Extrait de l’article] :

In Google, the web crawling (downloading of web pages) is done by several distributed crawlers. There is a URLserver that sends lists of URLs to be fetched to the crawlers. The web pages that are fetched are then sent to the storeserver. The storeserver then compresses and stores the web pages into a repository. Every web page has an associated ID number called a docID which is assigned whenever a new URL is parsed out of a web page. The indexing function is performed by the indexer and the sorter. The indexer performs a number of functions. It reads the repository, uncompresses the documents, and parses them. Each document is converted into a set of word occurrences called hits. The hits record the word, position in document, an approximation of font size, and capitalization. The indexer distributes these hits into a set of « barrels », creating a partially sorted forward index. The indexer performs another important function. It parses out all the links in every web page and stores important information about them in an anchors file. This file contains enough information to determine where each link points from and to, and the text of the link.

The URLresolver reads the anchors file and converts relative URLs into absolute URLs and in turn into docIDs. It puts the anchor text into the forward index, associated with the docID that the anchor points to. It also generates a database of links which are pairs of docIDs. The links database is used to compute PageRanks for all the documents. […]

Pour rĂ©sumer en français, le crawling est effectuĂ© par diffĂ©rents robots. Il y a un « URLserver » qui envoie une liste d’URLs Ă  extraire aux crawlers. Ces URLs seront ensuite envoyĂ©es dans le « storeserver ». Puis le storeserver compresses et stockes les pages web (URLs) dans un « entrepĂŽt ». Chaque page a un ID nommĂ© docID qui lui est assignĂ©e.

L’index fonctionne grĂące Ă  deux composants : l' »indexer » et le « sorter » (outils d’indexation et de tri). L’indexer possĂšde plusieurs fonctions. Il lit les Ă©lĂ©ments dans l’entrepĂŽt, dĂ©compresse les documents et les dĂ©crypte. Chaque document est dĂ©coupĂ© en mots nommĂ©s « hits ». L’indexer met ces « hits » dans des silos (« barrels »), ce qui crĂ©e des index partiellement triĂ©s. L’indexer analyse tous les liens d’une page et stocke les ancres dans un fichier nommĂ© « anchors ». Ce fichier contient des informations qui indiquent d’oĂč provient un lien et le texte sur ce lien (l’ancre).

L’URLresolver lit les fichiers d’ancres et convertit les liens relatifs en liens absolus qui sont ensuite transformĂ©s en docIDs. Cela met l’ancre de texte dans l’index transfĂ©rĂ©, associĂ© au docID dont l’ancre y pointe. Cela gĂ©nĂšre Ă©galement une base de donnĂ©es de liens qui est utilisĂ©e pour calculer le PageRank de chaque page … 🙂

GrĂące Ă  cet article, on comprend bien mieux comment Google fonctionne. Il n’y a pas qu’un outil, qu’un seul algorithme, mais plusieurs qui tournent en mĂȘme temps. Panda, Penguin, etc. ne seraient rien d’autres que des composants qui font partie de la chaĂźne de traitements maintenant.  Je n’ai traduit que l’essentiel de l’article car c’est la partie la plus intĂ©ressante pour comprendre le SEO Ă  mon avis. En voyant le schĂ©ma, c’est typiquement une chaĂźne de traitements d’ingĂ©nierie linguistique informatique trĂšs poussĂ©e. Peu Ă  peu, je vais me remettre dans les recherches scientifiques car j’aime beaucoup Ă©tudier les problĂ©matiques liĂ©es Ă  ce domaine.

Si vous avez des questions sur le traitement automatique des donnĂ©es ou le rĂ©fĂ©rencement naturel, n’hĂ©sitez pas Ă  me contacter avec cette adresse autoveille@gmail.com

Bon courage Ă  tous !

VĂ©ronique Duong –

Bonjour tout le monde !

MalgrĂ© le rush au bureau, j’ai trouvĂ© 10 minutes pour rĂ©diger cet article sur un petit outil SEO automatique que je viens de dĂ©velopper avec avec les technologies de l’ingĂ©nierie linguistique qui tournent sous Linux Xandros. D’habitude, j’utilise Kubuntu ou Ubuntu. Mais comme je viens de dĂ©couvrir le terminal de mon mini PC hier soir, j’en ai profitĂ© pour programmer dessus 🙂

Linux Xandros - Shell - Outil SEO - AUTOVEILLEGrĂące Ă  cet outil de calcul de densitĂ© de mots-clĂ©s, je peux rapidement voir la frĂ©quence d’apparition d’un mot-clĂ© dans l’ensemble des pages d’un site. Par exemple, avec le mot-clĂ© « outil de veille« , j’ai trouvĂ© 45 occurences de « outil de veille« .

Cette technique SEO permet de voir si le site assez de mots-clĂ©s par rapport au nombre de pages, et de voir s’il est bien optimisĂ© (sous-optimisĂ© ou sur-optimisĂ©). Comme mon site est petit, il est bien optimisĂ© sur le mot-clĂ© « outil de veille » (une frĂ©quence d’apparition de 45 pour 20 pages web, c’est OK).

Si vous voulez que j’extrais le nombre de mots-clĂ©s que vous avez dans votre site web, n’hĂ©sitez pas Ă  m’Ă©crire pour faire un petit test. Mon mail est dĂ©sormais : autoveille@gmail.com (pensez Ă  joindre l’adresse de votre site web et une petite liste de 5 Ă  10 mots-clĂ©s pour le test).

Bon courage Ă  tous !

VĂ©ronique Duong –

 

Bonjour tout le monde !

Je vous propose ce nouvel article suite Ă  la dĂ©couverte d’une infographie super intĂ©ressante lors de  ma veille stratĂ©gique d’informations SEO / SMO / SEM. Mon logiciel de veille a en effet rĂ©cupĂ©rĂ© une illustration expliquant comment fonctionnerait Google (crawl, indexation, l’envoi d’une requĂȘte des internautes dans sa base de donnĂ©es, matching (= correspondance), etc.).

Elle est trĂšs complĂšte Ă  mon avis, et les Ă©tapes sont trĂšs dĂ©taillĂ©es. Elle a Ă©tĂ© rĂ©alisĂ©e par PPC Blog. L’auteur parle du crawl, de l’indexation, tout en passant par les filtres (dĂ©ployĂ©s en fonction des mots-clĂ©s, requĂȘtes, synonymes, etc.) probablement utilisĂ©s par le moteur de recherche amĂ©ricain.

Il y a quelques temps, j’avais Ă©mis des hypothĂšses sur le fonctionnement possible des moteurs de recherche, et je pense que cette infographie complĂšte ma recherche. Le moteur crawl et indexe des milliers de pages web, et selon les mots-clĂ©s saisis par les internautes qui ont Ă©tĂ© passĂ© dans les diffĂ©rents filtres (cela me rappelle beaucoup la partie avec egrep dans mon Ă©tude), il affiche les rĂ©sultats dans ses SERP.

Voici l’infographie, zoomez au maximum pour qu’elle soit lisible :

Comment fonctionne Google ? - par AUTOVEILLE

Gardez cette infographie quelque part car je pense qu’elle pourrait ĂȘtre trĂšs utile pour illustrer certaines Ă©tudes.

Qu’en pensez-vous de cette infographie ? N’hĂ©sitez pas Ă  laisser vos avis et vos points de vue.

Bon courage Ă  tous !

VĂ©ronique Duong –

Bonjour tout le monde !

Aujourd’hui, je vous ai prĂ©parĂ© un article qui va toucher deux disciplines qui sont Ă©troitement corrĂ©lĂ©es, Ă  savoir le traitement automatique des langues (ou ingĂ©nierie linguistique) et le rĂ©fĂ©rencement naturel (ou SEO).

Ce que vous allez lire par la suite ne sont que des hypothĂšses car je ne connais pas l’algorithme de Google, mais aprĂšs de nombreux tests, je trouve qu’il y a de (fortes) similitudes qui existent entre la mĂ©thode que j’utilise pour retrouver des pages web ou des fichiers dans mon systĂšme et celle du moteur de Google.

En effet, j’utilise souvent l’aspiration de sites web pour stocker les pages web qui m’intĂ©ressent, et pour en retrouver certaines, j’utilise des mots-clĂ©s … comme des requĂȘtes que les internautes taperaient sur Google !

Voici l’exemple de mon propre site ci-dessous. Comme vous pouvez le voir, les pages web / HTML, les images, les autres fichiers sont tous crawlĂ©s par mon logiciel de crawling (qui n’est autre que mon logiciel de veille dĂ©tournĂ© en outil de crawl) :

base de données AUTOVEILLE |Logiciel de veille

 

Ensuite, pour trier les pages HTML que j’ai dans ma base ci-dessus, je lance une requĂȘte (encadrĂ©e en vert) de ce genre dans ma Konsole :

résultats de recherche egrep AUTOVEILLE

 

Je pense que Google possĂ©derait une base de donnĂ©es gigantesque au vu du nombre de pages web qui existent, et des milliers de corpus thĂ©matiques / catĂ©goriques. A chaque requĂȘte tapĂ©e, Google essayerait de fournir la meilleure rĂ©ponse Ă  l’utilisateur parmi ses trilliards de pages HTML 🙂

Je prĂ©cise Ă©galement que mon outil de crawl / de veille ne lit et ne crawl pas les images, le JavaScript. En tout cas, il y a des choses extrĂȘmement corrĂ©lĂ©es entre le TAL et le SEO, et je m’Ă©clate en faisant des recherches, des tests dans ces deux domaines ! 🙂

TrĂšs prochainement, je vous montrerai comment faire du content spinning propre !

Bon courage Ă  tous,

VĂ©ronique Duong –

Bonjour tout le monde !

Ok, mon article commence par un titre relevant du jargon du traitement automatique des langues et de la fouille de textes. Vous devez vous dire « euh ok, et c’est quoi le TF-IDF ? », « qu’est ce que ça Ă  voir avec le SEO ? » … Eh bien, je vais essayer de dĂ©finir le TF-IDF en deux lignes avec des termes vulgarisĂ©s pour que vous comprenez :

Le TF-IDF (qui est le sigle de Term Frequency-Inverse Document Frequency) est une mesure statistique qui permet d’Ă©valuer l’importance d’un terme contenu dans un document ou dans un ensemble de textes. Il varie en fonction de la frĂ©quence d’apparition du mot-clĂ© dans le corpus.

Des variantes de la formule originale sont souvent utilisĂ©es dans des moteurs de recherche pour apprĂ©cier la pertinence d’un document en fonction des critĂšres de recherche de l’utilisateur. (Source : WikipĂ©dia)

Voici la formule de calcul (ça semble assez abstrait … je sais) :

Formule calcul du TF-IDF

En gros, plus un mot-clĂ© est prĂ©sent dans un document ou dans un corpus ( = base de donnĂ©es de textes), plus le TF-IDF sera Ă©levĂ© pour ce mot. Baidu utiliserait cette technologie pour faire la correspondance entre les mots-clĂ©s d’une requĂȘte d’un internaute et les documents dans sa base (dans son moteur). Ainsi, il afficherait les pages HTML qui auraient le plus de pertinence par rapport aux mots-clĂ©s de la recherche. (Source de l’article TF-IDFæĄ†æž¶äžŽSEOèĄç”Ÿ)

Nuage de mots-clés AUTOVEILLE

Apparemment, Google et Yahoo! utiliseraient aussi la formule du TF-IDF pour afficher les rĂ©sultats de recherche selon les requĂȘtes des utilisateurs. Donc, il ne faudrait plus se contenter d’optimiser certaines parties (ex : juste les mĂ©ta tags) d’une page, mais vraiment toute la page web (des mĂ©ta tags au contenu textuel) en pensant Ă  la notion de la densitĂ© de mots-clĂ©s.

Personnellement, j’utilise un script Perl pour faire le calcul du TF-IDF.

Voici une exemple plus concret de calcul de TF-IDF pour plus de clarté (tiré directement de Wikipédia) :

Calcul TF-IDF pour le SEO - AUTOVEILLE

Bon courage Ă  tous,

VĂ©ronique Duong –

Bonjour Ă  tous !

Je vous ai prĂ©parĂ© un petit article sur le calcul automatique de la frĂ©quence d’une occurence dans un corpus de textes ou … tout simplement d’une page web pour effectuer une analyse des mots-clĂ©s.

L’outil de calcul, que j’ai implĂ©mentĂ©, ressemble quelque peu au Keyword Analysis Tool

Ce petit robot a Ă©tĂ© scriptĂ© en Perl. Il permet de dĂ©couper un corpus de textes en mot et d’indiquer la frĂ©quence (statistiques textuelles) de chaque forme prĂ©sente dans le contenu.

Mon outil met environ 1 Ă  2 secondes pour dĂ©couper le texte. TrĂšs rapide, non ? 🙂

Voici Ă  quoi ressemble le script:

Outil d'analyse de mots-clés

AprĂšs avoir passĂ© ce script sur un corpus de textes, on obtient des donnĂ©es statistiques, montrant le nombre de fois qu’une forme apparaĂźt, comme celles-ci:

FrĂ©quence de mots-clĂ©s et statistiques textuellesSi vous souhaitez en savoir plus, je vous invite Ă  vous rendre sur le site AUTOVEILLE pour avoir plus d’informations. Sinon, posez-moi des questions via autoveille@gmail.com

Bon courage !

VĂ©ronique Duong –

%d blogueurs aiment cette page :