2024
pdf
bib
abs
Sur les limites de l’identification par l’humain de textes générés automatiquement
Nadége Alavoine
|
Maximin Coavoux
|
Emmanuelle Esperança-Rodier
|
Romane Gallienne
|
Carlos-Emiliano González-Gallardo
|
Jérôme Goulian
|
Jose G Moreno
|
Aurélie Névéol
|
Didier Schwab
|
Vincent Segonne
|
Johanna Simoens
Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 2 : traductions d'articles publiès
La génération de textes neuronaux fait l’objet d’une grande attention avec la publication de nouveaux outils tels que ChatGPT. La principale raison en est que la qualité du texte généré automatiquement peut être attribuée à un$cdot$e rédacteurice humain$cdot$e même quand l’évaluation est faite par un humain. Dans cet article, nous proposons un nouveau corpus en français et en anglais pour la tâche d’identification de textes générés automatiquement et nous menons une étude sur la façon dont les humains perçoivent ce texte. Nos résultats montrent, comme les travaux antérieurs à l’ère de ChatGPT, que les textes générés par des outils tels que ChatGPT partagent certaines caractéristiques communes mais qu’ils ne sont pas clairement identifiables, ce qui génère des perceptions différentes de ces textes par l’humain.
pdf
bib
L3iTC at the FinLLM Challenge Task: Quantization for Financial Text Classification & Summarization
Elvys Linhares Pontes
|
Carlos-Emiliano González-Gallardo
|
Mohamed Benjannet
|
Caryn Qu
|
Antoine Doucet
Proceedings of the Eighth Financial Technology and Natural Language Processing and the 1st Agent AI for Scenario Planning
pdf
bib
abs
Limitations of Human Identification of Automatically Generated Text
Nadège Alavoine
|
Maximin Coavoux
|
Emmanuelle Esperança-Rodier
|
Romane Gallienne
|
Carlos-Emiliano González-Gallardo
|
Jérôme Goulian
|
Jose G. Moreno
|
Aurélie Névéol
|
Didier Schwab
|
Vincent Segonne
|
Johanna Simoens
Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)
Neural text generation is receiving broad attention with the publication of new tools such as ChatGPT. The main reason for that is that the achieved quality of the generated text may be attributed to a human writer by the naked eye of a human evaluator. In this paper, we propose a new corpus in French and English for the task of recognising automatically generated texts and we conduct a study of how humans perceive the text. Our results show, as previous work before the ChatGPT era, that the generated texts by tools such as ChatGPT share some common characteristics but they are not clearly identifiable which generates different perceptions of these texts.
2023
pdf
bib
abs
L3I++ at SemEval-2023 Task 2: Prompting for Multilingual Complex Named Entity Recognition
Carlos-Emiliano Gonzalez-Gallardo
|
Thi Hong Hanh Tran
|
Nancy Girdhar
|
Emanuela Boros
|
Jose G. Moreno
|
Antoine Doucet
Proceedings of the 17th International Workshop on Semantic Evaluation (SemEval-2023)
This paper summarizes the participation of the L3i laboratory of the University of La Rochelle in the SemEval-2023 Task 2, Multilingual Complex Named Entity Recognition (MultiCoNER II). Similar to MultiCoNER I, the task seeks to develop methods to detect semantic ambiguous and complex entities in short and low-context settings. However, MultiCoNER II adds a fine-grained entity taxonomy with over 30 entity types and corrupted data on the test partitions. We approach these complications following prompt-based learning as (1) a ranking problem using a seq2seq framework, and (2) an extractive question-answering task. Our findings show that even if prompting techniques have a similar recall to fine-tuned hierarchical language model-based encoder methods, precision tends to be more affected.
pdf
bib
abs
Injection de connaissances temporelles dans la reconnaissance d’entités nommées historiques
Carlos-Emiliano González-Gallardo
|
Emanuela Boros
|
Edward Giamphy
|
Ahmed Hamdi
|
Jose Moreno
|
Antoine Doucet
Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 4 : articles déjà soumis ou acceptés en conférence internationale
Dans cet article, nous abordons la reconnaissance d’entités nommées dans des documents historiques multilingues. Cette tâche présente des multiples défis tels que les erreurs générées suite à la numérisa- tion et la reconnaissance optique des caractères de ces documents. En outre, les documents historiques posent un autre défi puisque leurs collections sont distribuées sur une période de temps assez longue et suivent éventuellement plusieurs conventions orthographiques qui évoluent au fil du temps. Nous explorons, dans ce travail, l’idée d’injecter des connaissance temporelles à l’aide de graphes pour une reconnaissance d’entités nommées plus performante. Plus précisément, nous récupérons des contextes supplémentaires, sémantiquement pertinents, en explorant les informations temporelles fournies par les collections historiques et nous les incluons en tant que représentations mises en commun dans un modèle NER basé sur un transformeur. Nous expérimentons avec deux collections récentes en anglais, français et allemand, composées de journaux historiques (19C-20C) et de commentaires classiques (19C). Les résultats montrent l’efficacité de l’injection de connaissances temporelles dans des ensembles de données, des langues et des types d’entités différents.
pdf
bib
abs
Oui mais... ChatGPT peut-il identifier des entités dans des documents historiques ?
Carlos-Emiliano González-Gallardo
|
Emanuela Boros
|
Nancy Girdhar
|
Ahmed Hamdi
|
Jose Moreno
|
Antoine Doucet
Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 4 : articles déjà soumis ou acceptés en conférence internationale
Les modèles de langage de grande taille (LLM) sont exploités depuis plusieurs années maintenant, obtenant des performances de pointe dans la reconnaissance d’entités à partir de documents modernes. Depuis quelques mois, l’agent conversationnel ChatGPT a suscité beaucoup d’intérêt auprès de la communauté scientifique et du grand public en raison de sa capacité à générer des réponses plausibles. Dans cet article, nous explorons cette compétence à travers la tâche de reconnaissance et de classification d’entités nommées (NERC) dans des sources primaires (des journaux historiques et des commentaires classiques) d’une manière zero-shot et en la comparant avec les systèmes de pointe basés sur des modèles de langage. Nos résultats indiquent plusieurs lacunes dans l’identification des entités dans le texte historique, qui concernant la cohérence des guidelines d’annotation des entités, la complexité des entités et du changement de code et la spécificité du prompt. De plus, comme prévu, l’inaccessibilité des archives historiques a également un impact sur les performances de ChatGPT.
2022
pdf
bib
abs
Stylo@DEFT2022 : Notation automatique de copies d’étudiant·e·s par combinaisons de méthodes de similarité (Stylo@DEFT2022 : Automatic short answer grading by combinations of similarity methods )
Ibtihel Ben Ltaifa
|
Toufik Boubehziz
|
Andrea Briglia
|
Corina Chutaux
|
Yoann Dupont
|
Carlos-Emiliano González-Gallardo
|
Caroline Koudoro-Parfait
|
Gaël Lejeune
Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Atelier DÉfi Fouille de Textes (DEFT)
Cet article présente la participation de l’équipe STyLO (STIH, L3I, OBTIC) au DÉfi Fouille de Textes 2022 (DEFT 2022). La tâche proposée consiste en une évaluation automatique des questions à réponses courtes (EAQRC) de devoirs d’étudiant·e·s avec le corrigé de l’enseignant comme ressource pour chaque question. Nous exploitons dans notre approche une combinaison de différentes méthodes de représentation des données (corrigés et réponses) : mots, n-grammes de caractères (avec et sans frontières de mots), word pieces] et sentence embeddings ainsi que de différents algorithmes pour calculer la note (régression linéaire et régression logistique). Les méthodes sont évaluées en termes d’exactitude et de corrélation de Spearman.
pdf
bib
abs
L3i at SemEval-2022 Task 11: Straightforward Additional Context for Multilingual Named Entity Recognition
Emanuela Boros
|
Carlos-Emiliano González-Gallardo
|
Jose Moreno
|
Antoine Doucet
Proceedings of the 16th International Workshop on Semantic Evaluation (SemEval-2022)
This paper summarizes the participation of the L3i laboratory of the University of La Rochelle in the SemEval-2022 Task 11, Multilingual Complex Named Entity Recognition (MultiCoNER). The task focuses on detecting semantically ambiguous and complex entities in short and low-context monolingual and multilingual settings. We argue that using a language-specific and a multilingual language model could improve the performance of multilingual and mixed NER. Also, we consider that using additional contexts from the training set could improve the performance of a NER on short texts. Thus, we propose a straightforward technique for generating additional contexts with and without the presence of entities. Our findings suggest that, in our internal experimental setup, this approach is promising. However, we ranked above average for the high-resource languages and lower than average for low-resource and multilingual models.
2021
pdf
bib
abs
QUEER@DEFT2021 : Identification du Profil Clinique de Patients et Notation Automatique de Copies d’Étudiants (QUEER@DEFT2021 : Patients Clinical Profile Identification and Automatic Student Grading )
Yoann Dupont
|
Carlos-Emiliano González-Gallardo
|
Gaël Lejeune
|
Alice Millour
|
Jean-Baptiste Tanguy
Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Atelier DÉfi Fouille de Textes (DEFT)
Nous présentons dans cet article notre contribution aux 3 tâches de la campagne d’évaluation du défi Fouille de Texte 2021. Dans la tâche d’identification de de profil clinique (tâche 1) nous présentons une méthode de recherche d’information basé sur un index dérivé du MeSH. Pour la tâche de notation automatique à partir d’une correction (tâche 2), nous avons expérimenté une méthode de similarité de vecteurs de chaînes de caractères. Pour la tâche de notation à partir de copies déjà notées (tâche 3) nous avons entraîné un réseau de neurones LSTM.