Retour sur le #HackaTAL 2017 ! Traitement automatique des Langues x Ingénierie Linguistique

Bonjour tout le monde !

Comme vous le savez tous, de formation, je suis ingĂ©nieure linguiste, et je suis autant passionnĂ©e par le TAL que par le SEO. Je dirais toujours que c’est le TAL qui m’a menĂ©e vers le SEO car j’ai vu le lien entre ces deux domaines dĂšs le dĂ©but : Linguistique x Informatique en TAL, et SĂ©mantique x Technique en SEO. Je me dĂ©finirais toujours comme une spĂ©cialiste du SEO et du Traitement Automatique des Langues. Il y a moins d’Ă©vĂ©nements sur le TAL que le SEO, et je trouve cela extrĂȘmement dommage car le TAL, la science du langage a tout le mĂ©rite de se faire connaĂźtre.

En TAL, on produit des outils, des scripts qui servent, qui sont utiles pour des expĂ©riences scientifiques, et cela permet de faire progresser la R&D pour beaucoup de choses. Typiquement, j’utilise mes compĂ©tences en TAL pour automatiser certaines phases super chronophages (nettoyage des textes, optimisation des mĂ©ta tags, etc.). autant que possible.

Pendant ce HackaTAL 2017 qui s’est dĂ©roulĂ© Ă  OrlĂ©ans, au Lab’O (incubateur de start-ups dans le numĂ©rique), on a eu droit Ă  quelques petites confĂ©rences d’entreprises spĂ©cialisĂ©es dans le TAL, telles que Recital (gĂ©nĂ©ration de rĂ©sumĂ© automatique), Mood Messenger, etc.

On avait des tùches trÚs précises à réaliser, et voici les consignes officielles :

TĂąches

1. Résumé automatique de commentaires sur des produits en ligne

Objectifs

Dans le cadre de la promotion de produits sur les plateformes en ligne, l’apprĂ©ciation peut ĂȘtre analysĂ©e Ă  partir des retours utilisateurs (User Generated Content). Ces derniers peuvent se prĂ©senter : notes, Ă©toiles, mais aussi avis et commentaires textuels. Les notes n’étant pas toujours en adĂ©quation avec les contenus textuels, de plus en plus d’acteurs cherchent Ă  qualifier l’opinion des utilisateurs et Ă  dĂ©terminer quels sont leurs arguments.

La thĂ©matique est orientĂ©e sur les avis et commentaires concernant l’offre de logements en rĂ©gion centre (particuliers, auberges, hĂŽtels, luxe, etc.). Il s’agira de construire un rĂ©sumĂ© automatique des commentaires, Ă  partir des arguments dĂ©tectĂ©s dans ces derniers, Ă  comparer aux notes et/ou Ă  la description. Ce rĂ©sumĂ© orientĂ© devra ĂȘtre sĂ©parĂ© en deux champs principaux : points positifs et points nĂ©gatifs sur des critĂšres communs : accueil, confort, services, propretĂ©, accessibilitĂ©, etc. D’autres champs peuvent ĂȘtre proposĂ©s par les participants selon les arguments extraits Ă  partir des commentaires.

Sous tĂąches

  • Traitement / dĂ©bruitage de donnĂ©es UGC
  • DĂ©tection et extraction d’arguments
  • AgrĂ©gation des valeurs par produits
  • DĂ©tection et rĂ©solution de contradictions
  • RĂ©sumĂ© automatique d’opinions sur les aspects

Données et évaluation

Collection de données représentant chaque produit en ligne (champs de description du produit, notes ou étoiles, liste des commentaires associés) en français et en anglais. Les données seront fournies sous-forme de corpus (pour le corpus collecté sur Internet) et/ou via des liens à télécharger (pour les données fournies par les partenaires, à préciser).

L’évaluation portera sur la capacitĂ© Ă  calculer automatiquement les scores pour chaque catĂ©gorie d’évaluation du produit (accueil, propretĂ©, emplacement, etc.). Pour chacun de ces scores, un argumentaire rĂ©sumĂ© automatiquement devra ĂȘtre fourni qui pourra faire l’objet d’évaluation qualitatives.

2. Identification des tendances stratégiques liées aux brevets

Objectifs

La stratĂ©gie de dĂ©pĂŽt de brevets par des entreprises ou des individus reprĂ©sente un enjeu considĂ©rable, qui a donnĂ© lieu Ă  des affaires mondialement connues (Apple vs Samsung, Microsoft vs Google). Cet outil juridique reste cependant difficilement accessible pour les entreprises de petite taille ou les individus. En particulier, il n’est pas Ă©vident de dĂ©terminer quelles technologies vont avoir tendance Ă  ĂȘtre l’objet de brevets, dans une optique de veille ou de prĂ©servation de la propriĂ©tĂ© intellectuelle.

La tĂąche proposĂ©e vise Ă  mieux modĂ©liser les mĂ©canismes qui permettent de prĂ©dire l’apparition de brevets pour des technologies en essor, par utilisation de mĂ©thodes d’IA et de TAL (terminologie et expressions multi-mots, catĂ©gorisation des brevets, Ă©volution des termes et des n-grams, prĂ©diction de tendances). L’objectif est de dĂ©terminer, au regard des donnĂ©es collectĂ©es sur des brevets (par ex. distribution des termes entre 2001 et 2009), quels brevets seront dĂ©posĂ©s (par ex. en 2010). Pour illustration : si “tactile” est recensĂ© avec une grande montĂ©e en 2010, pouvait-on prĂ©dire cette montĂ©e en exploitant les donnĂ©es de la dĂ©cennie prĂ©cĂ©dente ?

Sous tĂąches

  • PrĂ©traitement du langage et de la structure des brevets
  • Extraction de terminologies liĂ©es aux technologies
  • Comparaison des termes des brevets avec les sites technologiques
  • DĂ©tection de signaux faibles
  • Analyse et prĂ©diction de tendances

De mon cĂŽtĂ©, je me suis penchĂ©e sur le rĂ©sumĂ© automatique de commentaires sur des produits en ligne. J’ai dĂ©jĂ  eu des sujets similaires Ă  traiter, et je trouve cela plus concret et utilisable tout de suite derriĂšre (une fois que le script est prĂȘt, l’outil peut servir !! 🙂 ) On Ă©tait une Ă©quipe de 3 : deux dĂ©veloppeurs web et moi. La technologie utilisĂ©e Ă©tait du PHP, des Regex, de l’Ă©tiquetage de donnĂ©es, et la stratĂ©gie Ă©tait d’utiliser les mots ayant le plus de poids dans une phrase (adverbe, adjectifs, verbes). Avec cette mĂ©thode, on a eu un Rappel de prĂšs de 80% ! (Rappel = le nombre de documents correctement retrouvĂ© dans sa classe, PrĂ©cision = le nombre de documents correctement attribuĂ© dans sa classe (ex : pour le rappel, cela veut dire que le commentaire a bien Ă©tĂ© retrouvĂ© dans telle ou telle catĂ©gorie automatiquement, et la prĂ©cision correspond au fait si le commentaire est bien attribuĂ© positif / neutre / nĂ©gatif).

C’est mon Ă©quipe qui a gagnĂ© le HackaTAL 2017 !!! Je suis trĂšs contente que ma stratĂ©gie / rĂ©flexion marche (avec les ADJ, les ADV, etc.), et on s’est bien dĂ©brouillĂ© avec les dĂ©veloppeurs ! Un Grand MERCI Ă  Nicolas Le Flohic et Fanny Jan, mes co-Ă©quipiers.

hackatal 2017 - Ă©quipe Wild gagnante

Voici quelques clichés du HackaTAL 2017 :

La jolie photo de souvenirs devant le logo du Lab’O !

Présentations des projets de chaque équipe :

Ca code, ça code !! Prùs de 48 heures de scripting 😉

https://twitter.com/eldams/status/878903996307693569

https://twitter.com/eldams/status/878902768886579200

Toutes les Ă©quipes ont bien travaillĂ©es, et ce sont donnĂ©es Ă  200% !!! Un week-end intense avec de belles rencontres, des Ă©changes hyper intĂ©ressants, et … cela m’a redonnĂ©e une folle envie de me remettre dans le TAL !!

En tout cas, une chose est sĂ»r, la Science du Langage est une science qui a beaucoup d’avenir :

Je pense qu’il y a moyen qu’un jour, je retourne Ă  100% dans les Sciences du Langage, dans le Traitement Automatique des Langues. On verra ce que la vie me donnera !

J’espĂšre que cet article vous aura plu, il change un peu du SEO 😉

Un Ă©norme merci Ă  Damien Nouvel (ERTIM / INALCO), au Lab’O et tous ceux qui ont organisĂ© cet superbe Ă©vĂ©nement concret et intense !

Bon courage Ă  tous,

VĂ©ronique Duong – IngĂ©nieure Linguiste … avant tout 🙂 !