Meryl Bothua


2023

pdf bib
Participation d’EDF R&D au défi DEFT 2023 : réponses automatiques à des questionnaires à choix multiples à l’aide de « Larges Modèles de Langue »
Meryl Bothua | Leila Hassani | Marie Jubault | Philippe Suignard
Actes de CORIA-TALN 2023. Actes du Défi Fouille de Textes@TALN2023

Ce papier présente la participation d’EDF R&D à la campagne d’évaluation DEFT 2023. Notre équipe a participé à la tâche de réponse automatique à des questions à choix multiples issus d’annales d’examens en pharmacie en français. Le corpus utilisé est FrenchMedMCQA. Nous avons testé des Large Language Models pour générer des réponses. Notre équipe s’est classée A COMPLETER.

2022

pdf bib
Evaluating Tokenizers Impact on OOVs Representation with Transformers Models
Alexandra Benamar | Cyril Grouin | Meryl Bothua | Anne Vilnat
Proceedings of the Thirteenth Language Resources and Evaluation Conference

Transformer models have achieved significant improvements in multiple downstream tasks in recent years. One of the main contributions of Transformers is their ability to create new representations for out-of-vocabulary (OOV) words. In this paper, we have evaluated three categories of OOVs: (A) new domain-specific terms (e.g., “eucaryote’” in microbiology), (B) misspelled words containing typos, and (C) cross-domain homographs (e.g., “arm” has different meanings in a clinical trial and anatomy). We use three French domain-specific datasets on the legal, medical, and energetical domains to robustly analyze these categories. Our experiments have led to exciting findings that showed: (1) It is easier to improve the representation of new words (A and B) than it is for words that already exist in the vocabulary of the Transformer models (C), (2) To ameliorate the representation of OOVs, the most effective method relies on adding external morpho-syntactic context rather than improving the semantic understanding of the words directly (fine-tuning) and (3) We cannot foresee the impact of minor misspellings in words because similar misspellings have different impacts on their representation. We believe that tackling the challenges of processing OOVs regarding their specificities will significantly help the domain adaptation aspect of BERT.

pdf bib
Etude des stéréotypes genrés dans le théâtre français du XVIe au XIXe siècle à travers des plongements lexicaux (Studying gender stereotypes in French theater from XVIth to XIXth century through the use of lexical embeddings )
Alexandra Benamar | Cyril Grouin | Meryl Bothua | Anne Vilnat
Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale

Les modèles de TAL les plus récents cherchent à capturer au mieux toutes les subtilités de la langue, ce qui implique de récupérer les stéréotypes qui y sont associés. Dans cet article, nous étudions les stéréotypes de genre qui existent dans des modèles Word2Vec. Nous avons constitué un jeu de données composé de pièces de théâtre françaises allant du XVIe au XIXe siècle. Nous avons choisi de travailler sur le genre théâtral car il tend à pousser à leur paroxysme certains traits de caractère représentatifs de hiérarchies sociales préexistantes. Nous présentons des expériences dans lesquelles nous parvenons à mettre en avant des stéréotypes de genre en relation avec les rôles et les émotions traditionnellement imputés aux femmes et aux hommes. De plus, nous mettons en avant une sémantique spécifique associée à des personnages féminins et masculins. Cette étude démontre l’intérêt de mettre en évidence des stéréotypes dans des corpus à l’aide de modèles contextuels « classiques ».

pdf bib
Participation d’EDF R&D à DEFT 2022 (EDF R&D Participation to DEFT 2022)
Philippe Suignard | Xiaomin Huang | Meryl Bothua
Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Atelier DÉfi Fouille de Textes (DEFT)

Ce papier présente la participation d’EDF R&D à la campagne d’évaluation DEFT 2022. Notre équipe a participé aux deux tâches proposées, l’une sur la prédiction automatique de la note d’un étudiant.e pour sa réponse à une question, d’après une référence existante, la seconde, nouvelle, qui était une tâche de prédiction itérative des notes. Notre équipe s’est classée 1ère sur la première tâche et a été la seule contributrice sur la seconde. Le corpus se composait d’énoncés en informatique avec la correction de l’enseignant et les réponses des étudiant.e.s par question.

2021

pdf bib
Participation d’EDF R&D à DEFT 2021 (EDF R&D Participation to DEFT 2021)
Philippe Suignard | Alexandra Benamar | Nazim Messous | Clément Christophe | Marie Jubault | Meryl Bothua
Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Atelier DÉfi Fouille de Textes (DEFT)

Ce papier présente la participation d’EDF R&D à la campagne d’évaluation DEFT 2021. Notre équipe a participé aux deux dernières tâches proposées (T2 et T3), deux tâches sur le calcul de similarité sémantique entre textes courts, et s’est classée 1ère sur ces deux tâches. Cette édition proposait deux nouvelles tâches pour l’évaluation automatique de réponses d’étudiants à des questions d’enseignants. Le corpus se composait d’une centaine d’énoncés en informatique avec la correction de l’enseignant et les réponses d’une cinquantaine d’étudiants en moyenne par question, sur 2 ans. La tâche 2 consistait à évaluer les réponses des étudiants en prenant pour référence la correction produite par l’enseignant et la tâche 3 à évaluer les réponses d’étudiants à partir d’un ensemble composé d’un énoncé et de plusieurs réponses d’étudiants déjà corrigées par l’enseignant.e.

2020

pdf bib
Participation d’EDF R&D à DEFT 2020 (This paper describes the participation of EDF R&D at DEFT 2020 evaluation campaign)
Danrun Cao | Alexandra Benamar | Manel Boumghar | Meryl Bothua | Lydia Ould Ouali | Philippe Suignard
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Atelier DÉfi Fouille de Textes

Ce papier décrit la participation d’EDF R&D à la campagne d’évaluation DEFT 2020. Notre équipe a participé aux trois tâchés proposées : deux tâches sur le calcul de similarité sémantique entre phrases et une tâche sur l’extraction d’information fine autour d’une douzaine de catégories. Aucune donnée supplémentaire, autre que les données d’apprentissage, n’a été utilisée. Notre équipe obtient des scores au-dessus de la moyenne pour les tâches 1 et 2 et se classe 2e sur la tâche 1. Les méthodes proposées sont facilement transposables à d’autres cas d’application de détection de similarité qui peuvent concerner plusieurs entités du groupe EDF. Notre participation à la tâche 3 nous a permis de tester les avantages et limites de l’outil SpaCy sur l’extraction d’information.

2019

pdf bib
Participation d’EDF R&D à DEFT 2019 : des vecteurs et des règles ! (EDF R&D submission to DEFT 2019 )
Philippe Suignard | Meryl Bothua | Alexandra Benamar
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Défi Fouille de Textes (atelier TALN-RECITAL)

Ce papier décrit la participation d’EDF R&D à la campagne d’évaluation DEFT 2019. Notre équipe a participé aux trois tâchés proposées : Indexation de cas cliniques (Tâche T1) ; Détection de similarité entre des cas cliniques et des discussions (Tâche T2) ; Extraction d’information dans des cas cliniques (Tâche 3). Nous avons utilisé des méthodes symboliques et/ou numériques en fonction de ces tâches. Aucune donnée supplémentaire, autre que les données d’apprentissage, n’a été utilisée. Notre équipe obtient des résultats satisfaisants sur l’ensemble des taches et se classe première sur la tache 2. Les méthodes proposées sont facilement transposables à d’autres tâches d’indexation et de détection de similarité qui peuvent intéresser plusieurs entités du groupe EDF.

2018

pdf bib
CuriosiText : application web d’aide au peuplement d’ontologies métiers comme ressources lexicales basée sur Word2Vec (CuriosiText: a web application based on Word2Vec helping with the population of ontologies (serving as lexical resources))
Meryl Bothua | Delphine Lagarde | Laurent Pierre
Actes de la Conférence TALN. Volume 2 - Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT

Suite à la mise en place d’une chaîne traitement destinée à extraire automatiquement des actions de maintenance réalisées sur des composants dans des comptes rendus, nous avons cherché à constituer des ressources lexicales à partir de textes souvent mal normalisés sur le plan linguistique. Nous avons ainsi développé une application web, CuriosiText, qui permet de lancer un traitement Word2Vec et de peupler semi automatiquement une ontologie métier avec les termes similaires correctement détectés. Des relations métiers spécifiques peuvent également être ajoutées.

pdf bib
Participation d’EDF R&D à DEFT 2018 (Here the title in English)
Philippe Suignard | Lou Charaudeau | Manel Boumghar | Meryl Bothua | Delphine Lagarde
Actes de la Conférence TALN. Volume 2 - Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT

Ce papier décrit la participation d’EDF R&D à la campagne d’évaluation DEFT 2018. Notre équipe a participé aux deux premières tâches : classification des tweets en transport/non-transport (Tâche T1) et détection de la polarité globale des tweets (Tâche T2). Nous avons utilisé 3 méthodes différentes s’appuyant sur Word2Vec, CNN et LSTM. Aucune donnée supplémentaire, autre que les données d’apprentissage, n’a été utilisée. Notre équipe obtient des résultats très corrects et se classe 1ère équipe non académique. Les méthodes proposées sont facilement transposables à d’autres tâches de classification de textes courts et peuvent intéresser plusieurs entités du groupe EDF.