Thierry Hamon

Also published as: T. Hamon

2025

Détection de métaphores dans les documents médicaux
Coralie Pottiez | Thierry Hamon | Natalia Grabar
Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux

La métaphore est une figure de style, qui permet de transférer le sens d’un terme source vers un terme cible, comme dans LE TEMPS C ‘EST DE L ‘ARGENT . De cette manière, la métaphore identifie des similarités cachées entre deux idées. La métaphore peut jouer plusieurs rôles dans la langue, comme l’embellir, structurer la pensée ou expliquer des notions complexes. Nous nous intéressons à la métaphore utilisée dans le domaine médical. Nous proposons d’abord une typologie de métaphores et un corpus de cas cliniques annoté avec des emplois métaphoriques. Nous effectuons également des expériences de détection automatique des métaphores avec un giga-modèle génératif. Plusieurs types de prompts sont testés. Les meilleurs résultats atteignent 67,50 de F-mesure, avec le rappel allant jusqu’à 74 % avec certains prompts . Le typage de métaphores montre que 45,51 % de métaphores sont typés correctement.

2022

pdf bib abs

Graph Neural Networks for Adapting Off-the-shelf General Domain Language Models to Low-Resource Specialised Domains
Merieme Bouhandi | Emmanuel Morin | Thierry Hamon
Proceedings of the 2nd Workshop on Deep Learning on Graphs for Natural Language Processing (DLG4NLP 2022)

Language models encode linguistic proprieties and are used as input for more specific models. Using their word representations as-is for specialised and low-resource domains might be less efficient. Methods of adapting them exist, but these models often overlook global information about how words, terms, and concepts relate to each other in a corpus due to their strong reliance on attention. We consider that global information can influence the results of the downstream tasks, and combination with contextual information is performed using graph convolution networks or GCN built on vocabulary graphs. By outperforming baselines, we show that this architecture is profitable for domain-specific tasks.

pdf bib abs

Adaptation au domaine de modèles de langue à l’aide de réseaux à base de graphes (Graph Neural Networks for Adapting General Domain Language Modèles Specialised Corpora)
Merieme Bouhandi | Emmanuel Morin | Thierry Hamon
Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale

Les modèles de langue prodonds encodent les propriétés linguistiques et sont utilisés comme entrée pour des modèles plus spécifiques. Utiliser leurs représentations de mots telles quelles pour des domaines peu dotés se révèle être moins efficace. De plus, ces modèles négligent souvent les informations globales sur le vocabulaire au profit d’une plus forte dépendance à l’attention. Nous considérons que ces informations influent sur les résultats des tâches en aval. Leur combinaison avec les représentations contextuelles est effectuée à l’aide de réseaux de neurones à base de graphes. Nous montrons que l’utilité de cette combinaison qui surpassent les performances de baselines.

2020

pdf bib abs

Prédire le niveau de langue d’apprenants d’anglais (Predict the language level for English learners)
Natalia Grabar | Thierry Hamon | Bert Cappelle | Cyril Grandin | Benoît Leclercq | Ilse Depraetere
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles

L’apprentissage de la deuxième langue (L2) est un processus progressif dans lequel l’apprenant améliore sa maîtrise au fur et à mesure de l’apprentissage. L’analyse de productions d’apprenants intéresse les chercheurs et les enseignants car cela permet d’avoir une meilleure idée des difficultés et les facilités d’apprentissage et de faire des programmes didactiques plus adaptés. Cela peut également donner des indications sur les difficultés cognitives à maîtriser les notions grammaticales abstraites dans une nouvelle langue. Nous proposons de travailler sur un corpus de productions langagières d’apprenants d’anglais provenant de différents pays et donc ayant différentes langues maternelles (L1). Notre objectif consiste à catégoriser ces productions langagières selon six niveaux de langue (A1, A2, B1, B2, C1, C2). Nous utilisons différents ensembles de descripteurs, y compris les verbes et expressions modaux. Nous obtenons des résultats intéressants pour cette catégorisation multiclasse, ce qui indique qu’il existe des différences linguistiques inhérentes entre les différents niveaux.

pdf bib abs

Identification des problèmes d’annotation pour l’extraction de relations (Identification of annotation problem for the relation extraction)
Tsanta Randriatsitohaina | Thierry Hamon
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles

L’annotation d’un corpus est une tâche difficile et laborieuse, notamment sur des textes de spécialité comme les textes biomédicaux. Ainsi, dans un contexte comme l’extraction des interactions alimentmédicament (FDI), l’annotation du corpus POMELO a été réalisée par un seul annotateur et présente des risques d’erreur. Dans cet article, nous proposons d’identifier ces problèmes d’annotation en utilisant un corpus Silver Standard (CSS) que nous établissons à partir d’un vote majoritaire parmi les annotations proposées par des modèles entraînés sur un domaine similaire (interaction médicamentmédicament – DDI) et l’annotation manuelle à évaluer. Les résultats obtenus montrent que l’annotation dans POMELO est considérablement éloignée du CSS. L’analyse des erreurs permet d’en identifier les principales causes et de proposer des solutions pour corriger l’annotation existante.

pdf bib abs

Simplification automatique de texte dans un contexte de faibles ressources (Automatic Text Simplification : Approaching the Problem in Low Resource Settings for French)
Sadaf Abdul Rauf | Anne-Laure Ligozat | Francois Yvon | Gabriel Illouz | Thierry Hamon
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles

La simplification de textes a émergé comme un sous-domaine actif du traitement automatique des langues, du fait des problèmes pratiques et théoriques qu’elle permet d’aborder, ainsi que de ses nombreuses applications pratiques. Des corpus de simplification sont nécessaires pour entrainer des systèmes de simplification automatique ; ces ressources sont toutefois rares et n’existent que pour un petit nombre de langues. Nous montrons ici que dans un contexte où les ressources pour la simplification sont rares, il reste néanmoins possible de construire des systèmes de simplification, en ayant recours à des corpus synthétiques, par exemple obtenus par traduction automatique, et nous évaluons diverses manières de les constituer.

Thierry Hamon

2025

2022

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2009

2008

2007

2006

2005

2004

2002

2001

1998

Co-authors

Venues