Bonjour tout le monde !
Comme vous le savez tous, de formation, je suis ingĂ©nieure linguiste, et je suis autant passionnĂ©e par le TAL que par le SEO. Je dirais toujours que c’est le TAL qui m’a menĂ©e vers le SEO car j’ai vu le lien entre ces deux domaines dĂšs le dĂ©but : Linguistique x Informatique en TAL, et SĂ©mantique x Technique en SEO. Je me dĂ©finirais toujours comme une spĂ©cialiste du SEO et du Traitement Automatique des Langues. Il y a moins d’Ă©vĂ©nements sur le TAL que le SEO, et je trouve cela extrĂȘmement dommage car le TAL, la science du langage a tout le mĂ©rite de se faire connaĂźtre.
En TAL, on produit des outils, des scripts qui servent, qui sont utiles pour des expĂ©riences scientifiques, et cela permet de faire progresser la R&D pour beaucoup de choses. Typiquement, j’utilise mes compĂ©tences en TAL pour automatiser certaines phases super chronophages (nettoyage des textes, optimisation des mĂ©ta tags, etc.). autant que possible.
Pendant ce HackaTAL 2017 qui s’est dĂ©roulĂ© Ă OrlĂ©ans, au Lab’O (incubateur de start-ups dans le numĂ©rique), on a eu droit Ă quelques petites confĂ©rences d’entreprises spĂ©cialisĂ©es dans le TAL, telles que Recital (gĂ©nĂ©ration de rĂ©sumĂ© automatique), Mood Messenger, etc.
On avait des tùches trÚs précises à réaliser, et voici les consignes officielles :
TĂąches
1. Résumé automatique de commentaires sur des produits en ligne
Objectifs
Dans le cadre de la promotion de produits sur les plateformes en ligne, lâapprĂ©ciation peut ĂȘtre analysĂ©e Ă partir des retours utilisateurs (User Generated Content). Ces derniers peuvent se prĂ©senter : notes, Ă©toiles, mais aussi avis et commentaires textuels. Les notes nâĂ©tant pas toujours en adĂ©quation avec les contenus textuels, de plus en plus dâacteurs cherchent Ă qualifier lâopinion des utilisateurs et Ă dĂ©terminer quels sont leurs arguments.
La thĂ©matique est orientĂ©e sur les avis et commentaires concernant lâoffre de logements en rĂ©gion centre (particuliers, auberges, hĂŽtels, luxe, etc.). Il sâagira de construire un rĂ©sumĂ© automatique des commentaires, Ă partir des arguments dĂ©tectĂ©s dans ces derniers, Ă comparer aux notes et/ou Ă la description. Ce rĂ©sumĂ© orientĂ© devra ĂȘtre sĂ©parĂ© en deux champs principaux : points positifs et points nĂ©gatifs sur des critĂšres communs : accueil, confort, services, propretĂ©, accessibilitĂ©, etc. Dâautres champs peuvent ĂȘtre proposĂ©s par les participants selon les arguments extraits Ă partir des commentaires.
Sous tĂąches
- Traitement / débruitage de données UGC
- DĂ©tection et extraction dâarguments
- Agrégation des valeurs par produits
- Détection et résolution de contradictions
- RĂ©sumĂ© automatique dâopinions sur les aspects
Données et évaluation
Collection de données représentant chaque produit en ligne (champs de description du produit, notes ou étoiles, liste des commentaires associés) en français et en anglais. Les données seront fournies sous-forme de corpus (pour le corpus collecté sur Internet) et/ou via des liens à télécharger (pour les données fournies par les partenaires, à préciser).
LâĂ©valuation portera sur la capacitĂ© Ă calculer automatiquement les scores pour chaque catĂ©gorie dâĂ©valuation du produit (accueil, propretĂ©, emplacement, etc.). Pour chacun de ces scores, un argumentaire rĂ©sumĂ© automatiquement devra ĂȘtre fourni qui pourra faire lâobjet dâĂ©valuation qualitatives.
2. Identification des tendances stratégiques liées aux brevets
Objectifs
La stratĂ©gie de dĂ©pĂŽt de brevets par des entreprises ou des individus reprĂ©sente un enjeu considĂ©rable, qui a donnĂ© lieu Ă des affaires mondialement connues (Apple vs Samsung, Microsoft vs Google). Cet outil juridique reste cependant difficilement accessible pour les entreprises de petite taille ou les individus. En particulier, il nâest pas Ă©vident de dĂ©terminer quelles technologies vont avoir tendance Ă ĂȘtre lâobjet de brevets, dans une optique de veille ou de prĂ©servation de la propriĂ©tĂ© intellectuelle.
La tĂąche proposĂ©e vise Ă mieux modĂ©liser les mĂ©canismes qui permettent de prĂ©dire lâapparition de brevets pour des technologies en essor, par utilisation de mĂ©thodes dâIA et de TAL (terminologie et expressions multi-mots, catĂ©gorisation des brevets, Ă©volution des termes et des n-grams, prĂ©diction de tendances). Lâobjectif est de dĂ©terminer, au regard des donnĂ©es collectĂ©es sur des brevets (par ex. distribution des termes entre 2001 et 2009), quels brevets seront dĂ©posĂ©s (par ex. en 2010). Pour illustration : si âtactileâ est recensĂ© avec une grande montĂ©e en 2010, pouvait-on prĂ©dire cette montĂ©e en exploitant les donnĂ©es de la dĂ©cennie prĂ©cĂ©dente ?
Sous tĂąches
- Prétraitement du langage et de la structure des brevets
- Extraction de terminologies liées aux technologies
- Comparaison des termes des brevets avec les sites technologiques
- Détection de signaux faibles
- Analyse et prédiction de tendances
De mon cĂŽtĂ©, je me suis penchĂ©e sur le rĂ©sumĂ© automatique de commentaires sur des produits en ligne. J’ai dĂ©jĂ eu des sujets similaires Ă traiter, et je trouve cela plus concret et utilisable tout de suite derriĂšre (une fois que le script est prĂȘt, l’outil peut servir !! đ ) On Ă©tait une Ă©quipe de 3 : deux dĂ©veloppeurs web et moi. La technologie utilisĂ©e Ă©tait du PHP, des Regex, de l’Ă©tiquetage de donnĂ©es, et la stratĂ©gie Ă©tait d’utiliser les mots ayant le plus de poids dans une phrase (adverbe, adjectifs, verbes). Avec cette mĂ©thode, on a eu un Rappel de prĂšs de 80% ! (Rappel = le nombre de documents correctement retrouvĂ© dans sa classe, PrĂ©cision = le nombre de documents correctement attribuĂ© dans sa classe (ex : pour le rappel, cela veut dire que le commentaire a bien Ă©tĂ© retrouvĂ© dans telle ou telle catĂ©gorie automatiquement, et la prĂ©cision correspond au fait si le commentaire est bien attribuĂ© positif / neutre / nĂ©gatif).
C’est mon Ă©quipe qui a gagnĂ© le HackaTAL 2017 !!! Je suis trĂšs contente que ma stratĂ©gie / rĂ©flexion marche (avec les ADJ, les ADV, etc.), et on s’est bien dĂ©brouillĂ© avec les dĂ©veloppeurs ! Un Grand MERCI Ă Nicolas Le Flohic et Fanny Jan, mes co-Ă©quipiers.
Voici quelques clichés du HackaTAL 2017 :
La jolie photo de souvenirs devant le logo du Lab’O !
Présentations des projets de chaque équipe :
Ca code, ça code !! PrĂšs de 48 heures de scripting đ
Toutes les Ă©quipes ont bien travaillĂ©es, et ce sont donnĂ©es Ă 200% !!! Un week-end intense avec de belles rencontres, des Ă©changes hyper intĂ©ressants, et … cela m’a redonnĂ©e une folle envie de me remettre dans le TAL !!
En tout cas, une chose est sĂ»r, la Science du Langage est une science qui a beaucoup d’avenir :
Je pense qu’il y a moyen qu’un jour, je retourne Ă 100% dans les Sciences du Langage, dans le Traitement Automatique des Langues. On verra ce que la vie me donnera !
J’espĂšre que cet article vous aura plu, il change un peu du SEO đ
Un Ă©norme merci Ă Damien Nouvel (ERTIM / INALCO), au Lab’O et tous ceux qui ont organisĂ© cet superbe Ă©vĂ©nement concret et intense !
Bon courage Ă tous,
VĂ©ronique Duong – IngĂ©nieure Linguiste … avant tout đ !