Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux

Frédéric Bechet, Adrian-Gabriel Chifu, Karen Pinel-sauvagnat, Benoit Favre, Eliot Maes, Diana Nurbakova (Editors)


Anthology ID:
2025.jeptalnrecital-taln
Month:
6
Year:
2025
Address:
Marseille, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA \\& ARIA
URL:
https://aclanthology.org/2025.jeptalnrecital-taln/
DOI:
Bib Export formats:
BibTeX MODS XML EndNote

pdf bib
Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux
Frédéric Bechet | Adrian-Gabriel Chifu | Karen Pinel-sauvagnat | Benoit Favre | Eliot Maes | Diana Nurbakova

pdf bib
« De nos jours, ce sont les résultats qui comptent » : création et étude diachronique d’un corpus de revendications issues d’articles de TAL
Clementine Bleuze | Fanny Ducel | Maxime Amblard | Karën Fort

Nous constituons un corpus de phrases issues de pré-tirages et d’articles de TAL, publiés en anglais entre 1952 et 2024, dont nous annotons manuellement un échantillon avec des catégories de revendications reflétant leur fonction rhétorique au sein des articles. Nous affinons un modèle SciBERT (Beltagy et al. , 2019) pour prédire les étiquettes restantes, que nous mettons, avec le corpus annoté, à la disposition de la communauté. Nous illustrons l’intérêt du corpus par des analyses exploratoires sur les caractéristiques des revendications relevées, ainsi qu’une étude diachronique de l’évolution de la structure des résumés; ceci est mis en lien avec une réflexion sur la notion d’exagération scientifique. Nous observons une importance croissante des séquences de contexte précédant l’exposé des contributions, lequel est également de plus en plus suivi de séquences de résultats.

pdf bib
ALF : Un jeu de données d’analogies françaises à grain fin pour l’évaluation de la connaissance lexicale des grands modèles de langue
Alexander Petrov | Antoine Venant | François Lareau | Yves Lepage | Philippe Langlais

La révolution apportée par les grands modèles de langue (LLM) provient de l’étonnante fluidité des textes qu’ils génèrent. Cette fluidité soulève une question scientifique essentielle : quelle quantité de connaissance lexicale les LLM capturent-ils réellement afin de produire un langage aussi fluide? Pour y répondre, nous présentons ALF, un jeu de données analogiqes librement accessible et doté de riches informations lexicographiques fondées sur la théorie Sens-Texte. Il comprend 2600 analogies lexicales à grain fin avec lesquelles nous évaluons la capacité lexicale de quatre LLM standards : ChatGPT-4o mini ,Llama3.0-8B ,Llama3.1-8B etQwen2.5-14B . En moyenne, ChatGPT et la série Llama obtiennent une précision aux environs de 55%, tandis que Qwen est juste en dessous du seuil des 60%, ce qui montre qu’ALF pose un défi considérable. Nous identifions en outre certains types d’analogies et de méthodes d’invite qui révèlent des disparités de performance.

pdf bib
Adaptation des connaissances médicales pour les grands modèles de langue : Stratégies et analyse comparative
Ikram Belmadani | Benoit Favre | Richard Dufour | Frédéric Béchet | Carlos Ramisch

Cet article présente une étude sur l’adaptation des grands modèles de langue (LLMs) à des domaines spécialisés disposant de données limitées. Bien que certaines recherches remettent en question le pré-entraînement adaptatif (DAPT) dans le contexte médical en anglais, nous montrons que l’adaptation au domaine peut être efficace sous certaines conditions. En prenant comme exemple l’adaptation au domaine médical en français, nous comparons de manière systématique le pré-entraînement continu (CPT), l’affinage supervisé (SFT) et une approche combinée (CPT suivi de SFT). Nos résultats indiquent que l’adaptation d’un modèle généraliste à de nouvelles données dans le domaine médical offre des améliorations notables (taux de réussite de 87%), tandis que l’adaptation supplémentaire de modèles déjà familiarisés avec ce domaine procure des bénéfices limités. Bien que CPT+SFT offre les meilleures performances globales, SFT-seul présente des résultats solides et requiert moins de ressources matérielles.

pdf bib
Alignement bi-textuel adaptatif basé sur des plongements multilingues
Olivier Kraif

Nous présentons dans cet article un système d’alignement bi-textuel adaptatif nommé AIlign. Cet aligneur s’appuie sur les embeddings de phrases pour extraire des points d’ancrage fiables susceptibles de guider le chemin d’alignement, même pour des textes dont le parallélisme est fragmentaire et non strictement monotone. Dans une expérimentation sur plusieurs jeux de données, nous montrons qu’AIlign obtient des résultats équivalents à l’état de l’art, avec une complexité quasi linéaire. En outre, AIlign est capable de traiter des textes dont les propriétés de parallélisme et de monotonie ne sont satisfaites que localement, contrairement à des systèmes tels que Vecalign ou Bertalign.

pdf bib
Alignements divisifs de textes parallèles: données, algorithme et évaluation
Joanna Radoła | François Yvon

Nous présentons Alibi - un corpus d’alignements hiérarchiques sous-phrastiques français-anglais, annoté manuellement à l’aide d’une stratégie divisive. Nous comparons globalement les alignements ainsi obtenus avec plusieurs corpus parallèles alignés mot-à-mot et étalonnons sa difficulté en réalisant des alignements automatiques par des méthodes de l’état de l’art. Nous proposons également un algorithme exploitant des représentations neuronales des mots et des groupes de mots afin de repro- duire les alignements hiérarchiques de référence. Enfin, nous proposons une métrique d’évaluation des arbres d’alignement avec laquelle nous comparons les performances de plusieurs variantes de l’algorithme d’alignement, obtenues en faisant varier les mesures d’appariemment de groupes de mots. Nos résultats montrent que (a) les arbres d’alignements de référence sont très ambigus et difficiles à reproduire automatiquement, cependant, les alignements mot-à-mot sont prédits de manière fiable ; (b) l’utilisation d’alternatives à la similarité cosinus pour évaluer l’appariemment de blocs permet d’améliorer significativement les résultats du système de base.

pdf bib
Alignements entre attention et sémantique dans des modèles de langues pré-entraînés
Frédéric Charpentier | Jairo Cugliari Duhalde | Adrien Guille

Les AMR (Abstract Meaning Representation) sont une structure destinée à coder la sémantique de phrases sous forme de graphes. Les mots des phrases correspondantes peuvent être alignés avec les sommets de l’AMR, de telle sorte que les relations sémantiques entre les mots puissent être mises en correspondance avec les rôles sémantiques lus sur les arcs de l’AMR. Le mécanisme d’attention d’un modèle de langue (ML) peut être modélisé comme le calcul de vecteurs descripteurs pour les arêtes d’un graphe complet dont les sommets sont les mots d’une phrase ou d’un paragraphe entier. Dans cet article, nous projetons les graphes AMR sur les graphes d’attention et concevons des méthodes supervisées pour détecter les relations sémantiques étiquetant les arêtes à partir des poids d’attention. Pour cela, nous mettons en œuvre des méthodes opérant soit sur les arêtes une à une, soit sur le graphe d’attention entier afin de comparer les capacités sémantiques de ML pré-entraînés. Il ressort de cette étude que l’encodeur bidirectionnel RoBERTA-base est meilleur que les décodeurs causaux, jusqu’à Llama 3 8B.

pdf bib
Améliorer la Traduction Neuronale par Exemple avec des Données Monolingues
Maxime Bouthors | Josep Crego | François Yvon

Les systèmes de traduction neuronale augmentée par des exemples (RANMT) utilisent des corpus bilingues dits mémoires de traduction (TM). Pourtant, dans de nombreux cas, des corpus monolingues du domaine d’intérêt dans la langue cible sont disponibles. Nos travaux s’intéressent à l’exploitation de telles ressources, en recherchant les segments pertinents directement dans la langue cible, conditionnellement à une phrase source en requête. À cet effet, nous proposons d’améliorer les systèmes de recherche cross-lingue, en les entraînant à réaliser des association lexicales. Nos expériences avec deux architectures neuronales montrent l’avantage de notre méthode dans un cas contrôlé, conduisant à des performances de traduction qui peuvent surpasser les méthodes basées sur une mémoire de traduction. Enfin, nous évaluons notre méthode dans une configuration réaliste pour laquelle la quantité de données monolingues excède celle des données parallèles. Cette approche résulte en une nette amélioration des performances par rapport à des modèles de base ainsi que des encodeurs pré-entraînés.

pdf bib
Analyse de la continuité référentielle dans le corpus d’écrits scolaires français et italien Scolinter
Martina Barletta | Claude Ponton

Cet article présente une étude sur la continuité référentielle dans des écrits scolaires en français et en italien, en s’appuyant sur le corpus Scolinter. L’objectif est d’analyser les mécanismes de cohérence textuelle à l’école primaire et de comparer les stratégies utilisées dans les deux langues à travers l’annotation et l’analyse des chaines de continuité référentielle. Une campagne d’annotation a été menée sur 150 textes par langue (CE1 et CE2), et le corpus de référence obtenu suite à l’adjudication a fait l’objet d’une analyse présentée ici. Les résultats montrent des différences notables. Par exemple, en français, les pronoms personnels sont privilégiés, tandis qu’en italien, l’anaphore zéro est plus fréquente. L’étude met également en évidence une tendance commune dans l’introduction des référents, souvent par des syntagmes nominaux indéfinis suivis d’une reprise pronominale. En revanche, la densité référentielle ne varie pas significativement entre les niveaux scolaires. Ces analyses apportent un éclairage sur le développement des compétences rédactionnelles et les spécificités linguistiques influençant la gestion de la référence dans chaque langue.

pdf bib
Augmentation des données par LLM pour améliorer la détection automatique des erreurs de coordination
Chunxiao Yan | Iris Eshkol-Taravella | Sarah De V ogué | Marianne Desmets

Afin d’améliorer les performances d’un outil de détection automatique des erreurs de coordination, cette étude explore l’utilisation de grands modèles de langage (LLM) pour remédier au déséquilibre des classes et à la limitation des données. En générant des phrases erronées simulées par un LLM pour former un corpus synthétique, nous améliorons la détection d’une classe sous-représentée ainsi que les performances globales du modèle. Nous étudions également l’application des LLM à l’annotation des données, avec pour objectif d’intégrer ces annotations à l’entraînement afin d’optimiser l’apprentissage du modèle.

pdf bib
Connaissances factuelles dans les modèles de langue : robustesse et anomalies face à des variations simples du contexte temporel
Hichem Ammar Khodja | Frédéric Béchet | Quentin Brabant | Alexis Nasr | Gwénolé Lecorvé

Ce papier explore la robustesse des modèles de langue (ML) face aux variations du contexte temporel dans les connaissances factuelles. Il examine si les ML peuvent associer correctement un contexte temporel à un fait passé valide sur une période de temps délimitée, en leur demandant de différencier les contextes corrects des contextes incorrects. La capacité de distinction des ML est analysée sur deux dimensions : la distance du contexte incorrect par rapport à la période de validité et la granularité du contexte. Pour cela, un jeu de données, TimeStress, est introduit, permettant de tester 18 ML variés. Les résultats révèlent que le meilleur ML n’atteint une distinction parfaite que pour 11% des faits étudiés, avec des erreurs critiques qu’un humain ne ferait pas. Ces travaux soulignent les limites des ML actuels en matière de représentation temporelle.

pdf bib
Corpus multilingue annoté pour l’étude sémantique des expressions quantifiantes – Problèmes de segmentation du coréen et du japonais
Raoul Blin | Jinnam Choi

Le travail présenté dans cet article s’inscrit dans le projet de constitution d’un corpus comparable, annoté pour l’étude sémantique de la quantification en coréen, français, japonais et chinois mandarin. Le corpus est annoté en dépendances au format SUD. Nous montrons la nécessité d’adopter une segmentation plus fine que celle en usage habituellement pour le coréen et le japonais. Cette segmentation améliore la description de la quantification dans environ 5% des phrases par rapport à la segmentation usuelle. Elle permet aussi une analyse morpho-syntaxique plus fine.

pdf bib
Détecter des comportements associés aux troubles alimentaires par l’analyse automatique des publications textuelles en ligne
Yves Ferstler | Catherine Lavoie | Marie-Jean Meurs

Cet article présente une méthode pour détecter des aspects du comportement liés aux troubles alimentaires à partir de publications textuelles échangées sur les réseaux sociaux. Nos travaux comparent différentes représentations d’historiques de publications permettant d’entraîner un modèle neuronal pour la prédiction. Les approches étudiées sont : (1) la représentation de sujet par fréquence, en calculant le nombre de sujets apparus dans un historique, (2) une représentation par plongement, en calculant la moyenne des représentations de sujets présents dans l’historique de publications, (3) une représentation par documents représentatifs, qui cherche à représenter un sujet par un document sémantiquement proche. Un filtrage de sujets est également étudié, pour sélectionner les sujets reliés aux troubles alimentaires. Les résultats montrent que l’utilisation de filtrage permet d’améliorer les performances des systèmes de détection. La méthode basée sur un document représentatif obtient les meilleurs résultats, parmi les autres représentations évaluées mais également parmi d’autres méthodes appliquées à la même tâche lors de la campagne d’évaluation eRisk 2024.

pdf bib
Détection de métaphores dans les documents médicaux
Coralie Pottiez | Thierry Hamon | Natalia Grabar

La métaphore est une figure de style, qui permet de transférer le sens d’un terme source vers un terme cible, comme dans LE TEMPS C ‘EST DE L ‘ARGENT . De cette manière, la métaphore identifie des similarités cachées entre deux idées. La métaphore peut jouer plusieurs rôles dans la langue, comme l’embellir, structurer la pensée ou expliquer des notions complexes. Nous nous intéressons à la métaphore utilisée dans le domaine médical. Nous proposons d’abord une typologie de métaphores et un corpus de cas cliniques annoté avec des emplois métaphoriques. Nous effectuons également des expériences de détection automatique des métaphores avec un giga-modèle génératif. Plusieurs types de prompts sont testés. Les meilleurs résultats atteignent 67,50 de F-mesure, avec le rappel allant jusqu’à 74 % avec certains prompts . Le typage de métaphores montre que 45,51 % de métaphores sont typés correctement.

pdf bib
Détection des contaminations de LLM par extraction de données : une revue de littérature pratique
Pierre Lepagnol | Thomas Gerald | Sahar Ghannay | Christophe Servan | Sophie Rosset

Cet état de l’art examine le problème de la contamination des données d’entraînement dans les grands modèles de langue (LLM). Ce phénomène se produit lorsque les modèles sont évalués sur des données qu’ils ont déjà rencontrées durant leur entraînement, créant une fausse impression de performance. Cette étude propose une synthèse pratique pour la communauté scientifique du traitement automatique des langues (TAL). Nous présentons un cadre d’analyse qui distingue différents niveaux de contamination ainsi que différentes méthodes classées selon l’accès au modèle (White/Gray/BlackBox) et les techniques utilisées (Similarité/Probabilité/Extraction). Nous explorons particulièrement les méthodes d’extraction de données de LLM, les approches techniques, les mesures de performance et leurs limites. Dans une perspective pratique, nous avons synthétisé ces méthodes sous la forme d’un arbre de décision pour sélectionner la méthode de détection de contamination adéquate.

pdf bib
Détection des omissions dans les résumés médicaux générés par les grands modèles de langue
Achir Oukelmoun | Nasredine Semmar | Gaël de Chalendar | Clément Cormi | Mariame Oukelmoun | Eric Vibert | Marc-Antoine Allard

Les grands modèles de langue (LLMs) sont de plus en plus utilisés pour résumer des textes médicaux, mais ils risquent d’omettre des informations critiques, compromettant ainsi la prise de décision. Contrairement aux hallucinations, les omissions concernent des faits essentiels absents. Cet article introduit un jeu de données validé en français pour détecter ces omissions et propose EmbedKDECheck, une approche frugale et sans référence. A l’opposé des méthodes basées sur les LLMs, cette approche utilise des plongements lexicaux issus d’un modèle de Traitement Automatique des Langues (TAL) léger combinant FastText et Word2Vec selon un algorithme précis couplé à un modèle non-supervisé fournissant un score d’anomalie. Cette approche permet d’identifier efficacement les omissions à faible coût computationnel. EmbedKDECheck a été évalué face aux frameworks de l’état de l’art (SelfCheckGPT, ChainPoll, G-Eval et GPTScore) et a montré de bonnes performances. Notre méthode renforce l’évaluation de la fiabilité des LLMs et contribue à une prise de décision médicale plus sûre.

pdf bib
Détection et évaluation de la communication toxique pour la relation client par des LLMs
Guillaume De Murcia | Ludovic Meineri | Laurent Gillard | Thomas Gouritin | Samy Lastmann

Cet article présente une méthode de détection de la toxicité dans les interactions et dialogues client avant des générations par un LLM. En proposant une taxonomie originale, adaptée aux échanges conversationnels et à la relation client, nous avons conçu un processus d’évaluation rigoureux, accompagné de deux corpus annotés : Toximini-fr etToxiMaxi-multilingual . Ces corpus combinent des requêtes issues de données réelles — extraites de logs de nos chatbots en production — et de jeux de données de référence, ainsi que des exemples générés de manière synthétique afin de couvrir un large éventail de situations. Nos expérimentations comparent différents modèles, dont GPT-4o mini et Mistral Moderation , sur des requêtes multilingues dans des contextes variés. Les résultats montrent que notre approche permet une détection robuste, notamment sur les contenus bruités ou implicites. Cette étude ouvre la voie à une meilleure maîtrise des risques liés aux comportements toxiques dans les échanges conversationnels automatisés.

pdf bib
ELITEC : un corpus de conversations en microposts français annoté pour le liage d’entités Wikidata
Vivien Leonard | Béatrice Markhoff | Jean-Yves Antoine

Nous présentons un corpus de microposts en français pour l’évaluation de la tâche de liage des mentions présentes dans le texte à des entités de Wikidata. Ce corpus est annoté à la fois pour la reconnaissance des mentions (Named Entity Recognition - NER) et leur liaison à des entités de Wikidata (Entity Linking - EL). Il s’agit d’une collection de 2 500 microposts, ciblés sur des termes liés à la vie en ville et regroupés en 618 conversations. Construit en suivant les conventions d’annotation de Impresso-Quaero, ce corpus a été pseudo-anonymisé afin d’être mis librement à disposition de la communauté. Nommé ELITEC (EL for mIcroposTs in FrEnCh), son objectif est de compléter les ressources spécifiques au français. ELITEC sert de base de tests pour les tâches NER et EL, et nous l’avons utilisé pour l’évaluation d’un système d’EL que nous avons développé.

pdf bib
Embeddings, topic models, LLM : un air de famille
Ludovic Tanguy | Cécile Fabre | Nabil Hathout | Lydia-Mai Ho-Dac

Word embeddings, topic models, LLMs: a family affair This article presents a study on terms denoting family relationships (brother, aunt, etc.) in French using three approaches: word embeddings, topic modeling, and pre-trained language models. The first two types of representations are built from the French version of Wikipedia, while the third is derived through direct interaction with ChatGPT. The aim is to compare how these three methods represent such terms, in two main ways: by evaluating them against a structural definition of family relations (in terms of features such as gender, lineage, etc.), and by comparing the topics associated with each term. These methods reveal different modes of structuring family-related vocabulary, while also underscoring the continued necessity of corpus-based and controlled analyses to obtain reliable results.

pdf bib
Estimation de l’inclusion entre tâches par projection spectrale de vecteurs de tâches
Loïc Fosse | Benoît Favre | Frédéric Béchet | Géraldine Damnati | Gwénolé Lecorvé

L’affinage des modèles a permis la plupart des avancées significatives récentes dans les tâches de TALN. Des études ont exploré les raisons de ces succès en étudiant le mécanisme d’attention, la manière dont les connaissances linguistiques et factuelles sont encodées, etc... . Il est cependant difficile d’interpréter les changements causés par l’affinage dans les poids des modèles. Pour mieux comprendre cela, nous proposons une méthode fondée théoriquement pour projeter et comparer les changements de poids (i.e. vecteurs de tâches) dans un espace à faible dimension. Cette approche permet de mieux comprendre les connaissances encodées dans un vecteur de tâches, relativement à un autre vecteur de tâche. Nous validons notre méthode en montrant qu’un modèle affiné sur une tâche de résumé encode des informations sur la reconnaissance d’entités nommées.

pdf bib
Étude comparative de réponses humaines et de grands modèles de langue à des QCM en pharmacie
Ricardo Rodriguez | Stéphane Huet | Benoît Favre | Mickael Rouvier

Cet article propose d’étudier les réponses générées par plusieurs Grands Modèles de Langue à un ensemble de Questions à Choix Multiple en pharmacie. Ces réponses sont comparées aux réponses données par des étudiants, afin de comprendre quelles sont les questions difficiles pour les modèles par rapport aux humains et pour quelles raisons. Nous utilisons les logits internes des modèles pour construire des distributions de probabilité et analyser les caractéristiques principales qui déterminent la difficulté des questions via une approche statistique. Nous apportons aussi une extension du jeu de données FRENCH MEDMCQA avec des paires question-réponses en pharmacie, enrichies avec les réponses des étudiants, la ponctuation assignée aux réponses, les thématiques cliniques correspondantes et des annotations manuelles sur la structure et certains traits sémantiques des questions.

pdf bib
Étude critique du corpus CNN/DailyMail pour le résumé automatique
Fanny Bachey | Christophe Rodrigues | Aurélien Bossard

De nombreux modèles de génération et d’évaluation sont entraînés sur des corpus sans qu’il ait été démontré qu’ils étaient appropriés pour cette tâche. C’est pourquoi nous proposons l’étude critique des données de l’un des corpus les plus utilisés dans le domaine du résumé automatique : CNN/DailyMail. Nous montrons, par une analyse théorique, puis en comparant les résumés de référence du corpus et à des résumés écrits par des humains, que les résumés de référence de CNN/DailyMail ne correspondent pas à ce que doit être un résumé, et que le corpus n’est donc pas adapté à la tâche de résumé automatique.

pdf bib
Évaluer la capacité des transformeurs à distinguer les significations compositionnelles et idiomatiques d’une même expression
Nina Nusbaumer | Guillaume Wisniewski | Benoît Crabbé

Cet article explore comment les modèles de langue fondés sur les transformeurs encodent les significations compositionnelles et non-compositionnelles de séquences en anglais comme big fish, qui, selon le contexte, peuvent signifier soit « grand poisson », soit « personne importante ». Nous avons mené des expériences pour évaluer : (1) la distinction entre les plongements lexicaux des groupes nominaux compositionnels et non compositionnels à travers les couches du modèle de langue, (2) leur séparabilité linéaire, et (3) l’unité lexicale des séquences non compositionnelle. Nos résultats montrent que le modèle différencie bien les deux significations, et ce dès les premières couches, avec néanmoins une variabilité selon les expressions. De plus, s’appuyant sur des informations contextuelles plus larges, le modèle ne traite pas les expressions idiomatiques comme lexicalement plus unifiées que leurs équivalents compositionnels.

pdf bib
Exploration de la modalité en français parlé et écrit
Anna Colli | Delphine Battistelli

Dans cet article, nous présentons une méthodologie pour comparer entre eux les profils modaux de corpus en français. Nous montrons quelles différences émergent ou non entre l’écrit et l’oral et pointons l’importance et la place des marqueurs polysémiques dans les deux cas. L’analyse de la polysémie du verbe pouvoir retient notre attention dans la mesure où ce verbe s’avère être un marqueur très présent dans l’ensemble des corpus.

pdf bib
Exploration de la séparation en langues dans les modèles de traitement de la parole auto-supervisés multilingues préentraînés avec des données écologiques
William N. Havard | Shrita Hassamal | Muhsina Alleesaib | Guilhem Florigny | Guillaume Fon Sing | Anne Abeillé | Benjamin Lecouteux | Emmanuel Schang

Les modèles auto-supervisés omnilingues de traitement de la parole sont adaptables mais manquent de plausibilité écologique et cognitive. Entraînés sur des corpus monolingues, ils négligent le multi- linguisme réel et le code-switching. De précédents travaux suggèrent que de tels modèles procèdent à des regroupements en langues dans l’espace latent, mais cela pourrait être dû à des biais acoustiques ou paralinguistiques plutôt qu’à de véritables traitements linguistiques. Nous avons entraîné un modèle WAV2VEC2 sur des données multilingues de Maurice, incluant des locuteurs plurilingues et du code-switching, et avons étudié les représentations latentes du modèle. Nos analyses montrent que les facteurs acoustiques et paralinguistiques sont encodés sans apprentissage actif, tandis que le regroupement par langue émerge avec un réel apprentissage. Ces résultats éclairent ainsi sur les véritable capacités linguistiques et paralinguistiques des modèles auto-supervisés de la parole.

pdf bib
Identification de mesures d’évaluation fiables pour la révision de textes scientifiques
Léane Jourdan | Florian Boudin | Nicolas Hernandez | Richard Dufour

L’évaluation de la révision des textes scientifiques reste un défi, car les métriques traditionnelles telles que ROUGE et BERTScore se concentrent sur la similarité à une référence plutôt que sur les améliorations réalisées. Nous analysons et identifions les limites de ces métriques et explorons des méthodes d’évaluation alternatives qui s’alignent mieux sur le jugement humain. Nous évaluons d’abord manuellement différentes révisions pour estimer leur qualité. Ensuite, nous examinons la possibilité d’utiliser des métriques d’évaluation sans référence provenant de domaines connexes du traitement automatique des langues (TAL) ainsi que des approches GML en tant que juge. Nos résultats montrent que GMLs évaluent efficacement le suivi des instructions mais peinent à évaluer l’acceptabilité, alors que les métriques spécifiques au domaine fournissent des informations complémentaires. Nous recommandons une approche hybride combinant l’évaluation GML en tant que juge et les mesures spécifiques à la tâche offrant l’évaluation la plus fiable de la qualité de la révision.

pdf bib
Intégration des relations inter-référents dans l’annotation de la coréférence : modèle et application
Antoine Boiteau | Yann Mathet | Antoine Widlöcher

La disponibilité de corpus annotés en coréférence demeure une nécessité pour de nombreux travaux en linguistique et en TAL. Toutefois, si de tels corpus sont bien disponibles, une part importante repose sur des modèles d’annotation ne permettant d’encoder qu’une partie des informations liées aux phénomènes coréférentiels. Après avoir redéfini un modèle élargi de la coréférence, nous montrerons les bénéfices d’une annotation menée à deux niveaux, celui de l’inscription des occurrences dans le texte (le repérage des maillons des chaînes de coréférence, niveau largement exploré) et celui des structures du modèle référentiel inféré (la clarification des rapports entre les entités désignées, domaine largement passé sous silence). Nous présenterons ensuite l’environnement OPERA destiné à l’annotation selon ce modèle repensé, et une campagne menée pour le tester.

pdf bib
L’Impact de la complexité textuelle sur le comportement de lecture : une analyse oculométrique et de la surprise des textes français
Oksana Ivchenko | Natalia Grabar

L’Impact de la complexité textuelle sur le comportement de lecture : une analyse oculométrique et de la surprise des textes français Cette étude examine comment la complexité du texte affecte les processus de lecture à travers différents types de textes en combinant la méthodologie d’oculométrie avec l’analyse de la surprise. Nous avons créé un corpus en français avec des textes généraux, cliniques et médicaux, dans leurs versions originales et simplifiées, annotés avec des mesures oculométriques complètes provenant de 23 participants. La modélisation linéaire à effets mixtes révèle que la surprise prédit significativement les temps de lecture pour tous les types de textes, les textes médicaux montrant une sensibilité accrue aux mots inattendus. De façon importante, la simplification a des effets différentiels selon le type de texte : bien qu’elle ne réduit pas significativement les temps de lecture pour les textes cliniques, elle diminue considérablement les temps de lecture pour les textes médicaux. De plus, la simplification atténue l’effet de la surprise spécifiquement dans les textes médicaux, réduisant le coût cognitif associé au traitement des mots inattendus.

pdf bib
La confiance de Mistral-7B est-elle justifiée ? Une évaluation en auto-estimation pour les questions biomédicales
Laura Zanella | Ambroise Baril

Évaluer la fiabilité des grands modèles de langage (LLMs) dans des tâches de question-réponse biomédicale est essentiel pour leur déploiement en toute sécurité dans des contextes médicaux. Dans cette étude, nous examinons si Mistral-7B est capable d’estimer avec précision la confiance qu’il accorde à ses propres réponses, en comparant ses scores de similarité auto-attribués à la similarité- cosinus avec des réponses de référence. Nos résultats montrent que Mistral-7B présente une forte tendance à la surconfiance, attribuant systématiquement des scores de similarité élevés, même lorsque la qualité des réponses varie. L’introduction de la génération augmentée par récupération (RAG) améliore la précision des réponses, comme en témoignent les valeurs plus élevées de similarité- cosinus, mais n’améliore pas significativement la calibration de la confiance. Bien que RAG réduise la surconfiance et améliore la corrélation entre les scores de similarité prédits et réels, le modèle continue de surestimer systématiquement la qualité de ses réponses. Ces résultats soulignent la nécessité de mécanismes d’estimation de confiance plus efficaces, afin d’aligner les auto-évaluations du modèle sur la précision réelle de ses réponses. Notre étude montre l’importance d’affiner les techniques de calibration des LLMs pour renforcer leur fiabilité dans les applications biomédicales.

pdf bib
Latrumplang, instrument de destruction de la pensée : analyse de l’impact de la censure trumpiste sur la recherche en santé mentale
Vincent P. Martin | Karën Fort | Jean-Arthur Micoulaud-Franchi

Un processus de censure de l’activité scientifique est en cours aux États-Unis. À partir de listes de termes interdits, des dossiers de financements sont réétudiés, des articles scientifiques sont rétractés. Or, le langage structure les tranches du réel descriptibles — et donc celles qui peuvent être étudiées scientifiquement. Dans cet article, nous souhaitons afficher comment la mise en place d’une telle censure pourrait provoquer la disparition de la recherche portant sur la santé mentale. Pour cela, nous avons réalisé une analyse bibliographique des 64 434 articles contenant le terme « mental health » dans leur titre référencé dans PubMed. Nous avons ensuite extrait une liste de termes interdits de leur résumé, identifié les thèmes sous-jacents et généré un réseau lexical. Ces résultats démontrent l’impossibilité de penser la santé mentale sans les termes interdits par les directives trumpistes, dont la censure signerait l’abandon de plus de 50 ans de progrès en santé publique.

pdf bib
Le rôle du contexte dans la classification séquentielle de phrases pour les documents longs
Anas Belfathi | Nicolas Hernandez | Laura Monceaux | Richard Dufour

La classification séquentielle de phrases étend la classification traditionnelle en intégrant un contexte plus large. Cependant, les approches de pointe rencontrent deux défis majeurs dans le traitement automatique des documents longs : les modèles de langue préentraînés sont limités par des contraintes de longueur d’entrée, tandis que les modèles hiérarchiques proposés introduisent souvent du contenu non pertinent. Nous proposons une approche de recherche d’information au niveau du document visant à extraire uniquement le contexte le plus pertinent. Nous introduisons deux types d’heuristiques : Séquentiel , qui capture l’information locale, et Sélectif, qui sélectionne les phrases les plus sémantiquement similaires. Nos expériences sur trois corpus juridiques en anglais montrent que ces heuristiques améliorent les performances. Les heuristiques séquentielles surpassent les modèles hiérarchiques sur deux des trois jeux de données. démontrant l’apport du contexte ciblé.

pdf bib
MOSAIC : Mélange d’experts pour la détection de textes artificiels
Matthieu Dubois | Pablo Piantanida | François Yvon

La diffusion auprès du grand public de grands modèles de langue facilite la production de contenus nuisibles, médisants, malhonnêtes ou falsifiés. En réponse, plusieurs solutions ont été proposées pour identifier les textes ainsi produits, en traitant le problème comme une tâche de classification binaire. Les premières approches reposent sur l’analyse d’un document par un modèle détecteur, avec l’hypothèse qu’un faible score de perplexité indique que le contenu est artificiel. Des méthodes plus récentes proposent de comparer les distributions de probabilité calculées par deux modèles. Cependant, s’appuyer sur une paire fixe de modèles peut fragiliser les performances. Nous étendons ces méthodes en combinant plusieurs modèles et en développant une approche théoriquement fondée pour exploiter au mieux chacun d’entre eux.

pdf bib
Mesurer les inégalités de genre en ligne avec le genre grammatical : Une étude du subreddit r/france
Marie Flesch | Heather Burnett

Cet article présente un système de détection du genre basé sur le genre grammatical, conçu pour le français, créé afin de mesurer les inégalités de genre dans les espaces francophones en ligne. Il décrit tout d’abord la création et le test du système, qui extrait le genre grammatical dans les expressions de type je suis depuis un lexique, sur un corpus étiqueté. Ensuite, il propose une étude de cas en deux parties, avec l’application du système sur un corpus de 11.8 millions de commentaires publiés sur r/france, le plus grand forum francophone de Reddit, suivie d’une étude des dynamiques de participation des femmes et des hommes dans cet espace. Cette recherche montre qu’un système de détection du genre simple, basé sur du pattern-matching, atteint une haute performance (précision de 96% dans le corpus test), et permet de dévoiler d’importantes inégalités de participation sur un forum francophone de premier plan.

pdf bib
Modèles auto-supervisés de traitement de la parole pour le Créole Haitien
William N. Havard | Renauld Govain | Benjamin Lecouteux | Emmanuel Schang

Nous développons des modèles de traitement de la parole spécifiquement dédiés au créole haïtien (kreyòl), le positionnant ainsi comme une langue bien dotée en termes de modèles auto-supervisés de traitement de la parole. Pour ce faire, nous pré-entraînons des modèles monolingues WAV2VEC2BASE,WAV2VEC2-L ARGE etDATA 2VEC-AUDIO -BASEà partir de zéro, qui sont ensuite affinés pour une tâche de reconnaissance automatique de la parole. Nous comparons la performance de ces modèles avec des modèles affinés à partir de modèles multilingues (XLSR-53, XLSR2-300 M, MMS-1B) et monolingues basés sur le français (LEBENCHMARK 1 à 7K). Nos résultats démontrent l’efficacité du pré-entraînement monolingue, avec des performances pouvant rivaliser, voire surpasser, celle de grands modèles multilingues. Ce travail propose ainsi des modèles robustes de reconnaissance vocale pour le kreyòl , adaptables à d’autres créoles français des Caraïbes, contribuant ainsi au développement technologique de ces langues peu dotées.

pdf bib
Modélisation de la lisibilité en français pour les personnes en situation d’illettrisme
Wafa Aissa | Thibault Bañeras-Roux | Elodie Vanzeveren | Lingyun Gao | Alice Pintard | Rodrigo Wilkens | Thomas François

Nous présentons une nouvelle formule de lisibilité en français spécifiquement conçue pour les personnes en situation d’illettrisme. À cette fin, nous avons construit un corpus de 461 textes annotés selon une échelle de difficulté spécialisée à ce public. Dans un second temps, nous avons systématiquement comparé les principales approches en lisibilité, incluant l’apprentissage automatique reposant sur des variables linguistiques, le fine-tuning de CamemBERT, une approche hybride combinant CamemBERT et des variables linguistiques et des modèles de langue génératifs (LLMs). Une analyse approfondie de ces modèles et de leurs performances est menée afin d’évaluer leur applicabilité dans des contextes réels.

pdf bib
Pensez: Moins de données, meilleur raisonnement – Repenser les LLM français
Huy Hoang Ha

Les grands modèles linguistiques (LLM) ont démontré des capacités remarquables dans diverses tâches de traitement automatique du langage naturel. Cependant, l’obtention de performances élevées dans des domaines spécialisés tels que le raisonnement mathématique et les langues autres que l’anglais nécessite souvent un entraînement intensif. Cet article étudie l’affinage stratégique sur un petit ensemble de données bilingue de haute qualité, afin d’améliorer à la fois les capacités de raisonnement et la maîtrise de la langue française d’un LLM. Nous démontrons des améliorations du raisonnement mathématique en utilisant seulement 2000 échantillons soigneusement sélectionnés. Ces résultats remettent en question l’hypothèse dominante selon laquelle des ensembles de données massifs sont une condition préalable à de solides performances de raisonnement pour les LLM.

pdf bib
Peut-on retrouver votre âge à partir de la transcription de votre parole ?
Vanessa Gaudray Bouju | Menel Mahamdi | Iris Eshkol-Taravella | Angèle Barbedette

L’identification et la classification des groupes sociaux à partir du langage constitue une préoccupation sociolinguistique majeure. Dans cet article, nous présentons une recherche de classification des locuteurs basée sur leur âge. Pour ce faire, nous exploitons un corpus de données du français oral, où chaque locuteur est associé à des métadonnées, dont son âge au moment de l’enregistrement. Notre objectif est de développer des méthodes d’apprentissage automatique capables de prédire la tranche d’âge d’un locuteur à partir de son discours transcrit de l’oral, allant de l’apprentissage supervisé à l’ingénierie de prompts sur des grands modèles de langage. Cette tâche n’est pas seulement un défi technique, elle soulève également des questions fondamentales sur la nature de la variation linguistique et sur les liens entre le langage et la société. En effet, en identifiant les corrélations entre certains traits linguistiques et l’âge, notre projet contribue à enrichir notre compréhension des mécanismes sous-jacents à la variation du langage et à ses implications dans la construction de l’identité sociale. Son autre apport est de questionner les traits linguistiques classiquement imputés à une tranche d’âge afin de montrer leurs limites.

pdf bib
Plongement des constituants pour la représentation sémantique des phrases
Eve Sauvage | Iskandar Boucharenc | Thomas Gerald | Julien Tourille | Sabrina Campano | Cyril Grouin | Sophie Rosset

Les méthodes d’apprentissage profond en traitement automatique des langues reposent souvent sur une segmentation des textes en tokens avant leur vectorisation. Cette segmentation produit des sous-unités lexicales offrant une grande flexibilité. Toutefois, la réutilisation de tokens identiques dans des mots de sens différents peut favoriser des représentations basées sur la forme plutôt que sur la sémantique. Ce décalage entre la forme de surface et le sens peut induire des effets indésirables dans le traitement de la langue. Afin de limiter l’influence de la forme sur la sémantique des représentations vectorielles, nous proposons une représentation intermédiaire plus compacte et plus fidèle au sens des mots.

pdf bib
Projeter pour mieux fusionner : une histoire de bandit et de lit
Olivier Ferret

La mise à disposition d’un nombre important de modèles de langue neuronaux affinés pour différentes tâches conduit assez naturellement à se poser la question de l’intérêt de les combiner, en particulier par le biais de la fusion de paramètres, option aboutissant au résultat demandant le moins de ressources. Dans cet article, nous proposons une nouvelle méthode entrant dans ce champ de recherche, fondé sur l’analyse procustéenne. Nous évaluons cette méthode pour la fusion de modèles affinés pour une même tâche à partir d’un même modèle de base, de type encodeur. En considérant neuf tâches du jeu de données GLUE et six méthodes de fusion de référence, nous montrons que notre proposition est capable d’améliorer les méthodes de fusion existantes dans la plupart des configurations testées.

pdf bib
QUARTZ : Approche abstractive non supervisée par question-réponse pour le résumé de dialogue orienté tâche
Mohamed Imed Eddine Ghebriout | Gaël Guibon | Ivan Lerner | Emmanuel Vincent

Le résumé de dialogues condense les conversations en un texte concis, réduisant la complexité des applications riches en interactions. Les approches existantes reposent souvent sur l’entraînement de modèles de langue à imiter des résumés humains. Cependant, cette approche est coûteuse et les résumés obtenus manquent souvent de pertinence, entraînant des performances sous-optimales, notamment en médecine. Dans cet article, nous introduisons QUARTZ , une méthode non supervisée pour le résumé de dialogues orienté tâche. QUARTZ génère plusieurs résumés et paires de questionsréponses à l’aide de grands modèles de langue (LLMs). Les résumés sont évalués en demandant aux LLMs de répondre à ces questions avant (i)de sélectionner les meilleures réponses et (ii)d’identifier le résumé le plus informatif. Enfin, nous affinons le meilleur LLM sur les résumés générés sélectionnés. Validé sur plusieurs ensembles de données, QUARTZ atteint des performances compétitives en zéro-shot, rivalisant avec les approches supervisées de pointe.

pdf bib
Raffinage des représentations des tokens dans les modèles de langue pré-entraînés avec l’apprentissage contrastif : une étude entre modèles et entre langues
Anna Mosolova | Marie Candito | Carlos Ramisch

Les modèles de langue pré-entraînés ont apporté des avancées significatives dans les représentations contextuelles des phrases et des mots. Cependant, les tâches lexicales restent un défi pour ces représentations en raison des problèmes tels que la faible similarité des representations d’un même mot dans des contextes similaires. Mosolova et al. (2024) ont montré que l’apprentissage contrastif supervisé au niveau des tokens permettait d’améliorer les performances sur les tâches lexicales. Dans cet article, nous étudions la généralisabilité de leurs résultats obtenus en anglais au français, à d’autres modèles de langue et à plusieurs parties du discours. Nous démontrons que cette méthode d’apprentissage contrastif améliore systématiquement la performance sur les tâches de Word-in-Context et surpasse celle des modèles de langage pré-entraînés standards. L’analyse de l’espace des plongements lexicaux montre que l’affinage des modèles rapproche les exemples ayant le même sens et éloigne ceux avec des sens différents, ce qui indique une meilleure discrimination des sens dans l’espace vectoriel final.

pdf bib
Repousser les limites des benchmarks actuels pour une évaluation réaliste des LLMs en migration de code
Samuel Mallet | Joe El Khoury | Elõd Egyed-Zsigmond

Les grands modèles de langage (LLMs) offrent un potentiel important pour la migration de code, mais les benchmarks actuels créent une illusion de maîtrise ne se traduisant pas par de bonnes performances sur des projets industriels complexes. Bien que des avancées comme RepoTransBench incluent des tâches à l’échelle de dépôts complets, ces benchmarks restent irréalistes : taille de projet trop limitée, gestion simplifiée des dépendances, faible diversité technologique et absence de génération ou adaptation automatique des tests. Dans cet article, nous analysons ces limites et nous suggérons de s’inspirer d’approches existantes dans des contextes monolingues, notamment la gestion des contextes longs et la génération automatique de tests, pour concevoir des benchmarks de migration plus réalistes. Notre contribution vise à encourager la communauté à développer des évaluations plus représentatives des défis industriels.

pdf bib
Supervision faible pour la classification des relations discursives
Khalil Maachou | Chloé Braud | Philippe Muller

L’identification des relations discursives est importante pour comprendre les liens sémantiques qui structurent un texte, mais cette tâche souffre d’un manque de données qui limite les performances. D’un autre côté, de nombreux corpus discursifs existent : les divergences entre les projets d’annotation empêchent cependant de combiner directement ces jeux de données à l’entraînement. Nous proposons de résoudre ce problème en exploitant le cadre de la supervision faible, dont l’objectif est de générer des annotations à partir de sources variées, comme des heuristiques ou des modèles pré-entraînés. Ces annotations bruitées et partielles sont ensuite combinées pour entraîner un modèle sur la tâche. En combinant cette méthode avec des stratégies permettant de gérer les différences dans les jeux d’étiquettes, nous démontrons qu’il est possible d’obtenir des performances proches d’un système entièrement supervisé en s’appuyant sur une très petite partie des données d’origine, ouvrant ainsi des perspectives d’amélioration pour des domaines ou des langages à faibles ressources.

pdf bib
Syntaxe en dépendance avec les grammaires catégorielles abstraites : une application à la théorie sens-texte
Marie Cousin

L’implémentation de Cousin (2025) de la théorie sens-texte dans les grammaires catégorielles abstraites, un formalisme grammatical basé sur le λ-calcul, présente différentes limitations, en particulier l’articulation des dépendances au sein des structures, et le comportement des adjectifs et adverbes (rôle prédicatif des adjectifs et adverbes au niveau sémantique, nombre de modifieurs, etc.). Tout en utilisant la composition de grammaires catégorielles abstraites de Cousin (2025), nous proposons une représentation des structures syntaxiques en dépendances inspirée de de Groote (2023b) qui lève ces limitations.

pdf bib
Systèmes d’écriture et qualité des données : l’affinage de modèles de translittération dans un contexte de faibles ressources
Emmett Strickland | Ilaine Wang | Damien Nouvel | Bénédicte Diot-Parvaz Ahmad

Cet article présente une expérience visant à construire des modèles de romanisation affinés pour onze langues parmi lesquelles se trouvent des langues dites peu dotées. Nous démontrons qu’un modèle de romanisation efficace peut être créé en affinant un modèle de base entraîné sur un corpus important d’une ou plusieurs autres langues. Le système d’écriture semblerait jouer un rôle dans l’efficacité de certains modèles affinés. Nous présentons également des méthodes pour évaluer la qualité des données d’entraînement et d’évaluation, et comparons notre modèle arabe le plus performant à un modèle de référence.

pdf bib
Traitement automatique des évènements médiatiques : Détection, classification, segmentation et recherche sémantique
Abdelkrim Beloued

Cet article présente une méthodologie pour l’analyse automatique des évènements rapportés par les médias. Elle s’appuie sur des techniques de traitement automatique des langues, notamment la représentation sémantique des contenus médiatiques, la classification thématique, l’extraction d’évènements à partir de flux d’information, ainsi que la détection d’évènements par regroupement de représentations vectorielles issues de modèles de plongement sémantique. L’approche combine des modèles supervisés et non supervisés ainsi que des architectures capables de prendre en compte un contexte large. Plusieurs corpus sont utilisés pour l’entraînement et l’évaluation de ces modèles. Les résultats obtenus montrent une efficacité élevée dans la détection, le regroupement, la classification thématique et la recherche sémantique des évènements médiatiques. Cette approche offre ainsi des perspectives significatives pour structurer les faits réels, analyser leur représentation médiatique et comprendre l’influence exercée par les médias sur le traitement de ces faits.

pdf bib
Une revue sur les hallucinations des LLM
Eleni Metheniti | Swarnadeep Bhar | Nicholas Asher

Nous présentons une taxonomie des hallucinations dans les LLM, classées en trois catégories : hallucinations infidèles, contradictions factuelles et fabrications factuelles. Ces hallucinations peuvent se produire à cause des données de pré-entraînement et d’alignement, conduisant à des informations erronées, des préjugés et des erreurs de connaissance. Les méthodes d’entraînement peuvent introduire des problèmes tels que l’ajustement excessif, les effets boule de neige ou la sycophantie. Les stratégies de décodage peuvent également rendre les modèles trop confiants et enclins à attribuer des probabilités aux résultats incorrects. Une bibliographie sur la détection et atténuation des hallucinations est présentée: des méthodes de TALN, telles que la vérification des faits et la classification, de même que des méthodes basées sur les LLM. Les solutions d’atténuation des hallucinations comprennent l’amélioration de la qualité des données de pré-entraînement, l’injection de nouvelles connaissances (par ex. avec RAG), l’optimisation, SFT et RLHF, ainsi que des méthodes de décodage.

pdf bib
Vers l’entraînement de modèles de reconnaissance automatique de la parole auto-supervisés équitables sans étiquettes démographiques
Laura Alonzo-Canul | Benjamin Lecouteux | François Portet

Malgré des avancées importantes dans le domaine de la Reconnaissance Automatique de la Parole (RAP), les performances de reconnaissance restent inégales selon les groupes de locuteurs, ce qui pose des problèmes d’équité. Bien qu’il existe des méthodes pour réduire ces inégalités, elles dépendent de ressources externes au signal vocal, telles que des modèles de locuteur (speaker embeddings) ou des étiquettes démographiques textuelles, qui peuvent être indisponibles ou peu fiables. Dans ce travail, nous proposons une méthode pour améliorer l’équité dans la RAP qui ne dépend d’aucune de ces ressources. Notre approche utilise une méthode de clustering non supervisé à partir de représentations acoustiques classiques, auto-supervisées et hybrides. Nos expériences avec CommonV oice 16.1 démontrent que les modèles entraînés sur les clusters découverts améliorent les performances des groupes démographiques désavantagés tout en conservant des performances compétitives et en utilisant deux fois moins de données d’entraînement.

pdf bib
ding-01 :ARG0 Un corpus AMR pour le français parlé spontané
Jeongwoo Kang | Maria Boritchev | Maximin Coavoux

Nous présentons notre travail en cours sur l’annotation d’un corpus sémantique du français. Nous annotons le corpus DinG, constitué de transcriptions de dialogues spontanés en français enregistrées pendant des parties du jeu de plateau Catan , en Abstract Meaning Representation (AMR), un formalisme de représentation sémantique. Comme AMR a une couverture insuffisante de la dynamique de la parole spontanée, nous étendons le formalisme pour mieux représenter la parole spontanée et les structures de phrases spécifiques au français. En outre, nous diffusons un guide d’annotation détaillant ces extensions. Enfin, nous publions notre corpus sous licence libre (CC-SA-BY). Notre travail contribue au développement de ressources sémantiques pour le dialogue en français.

pdf bib
π-YALLI : un nouveau corpus pour des modèles de langue nahuatl / Yankuik nawatlahtolkorpus pampa tlahtolmachiotl
Juan-José Guzmán-Landa | Juan-Manuel Torres-Moreno | Martha Lorena Avendaño Garrido | Miguel Figueroa-Saavedra | Ligia Quintana-Torres | Graham Ranger | Carlos-Emiliano González-Gallardo | Elvys Linhares-Pontes | Patricia Velázquez-Morales | Luis-Gil Moreno-Jiménez

π-YALLI : a new corpus for Nahuatl Language Models The Nahuatl is a language with few computational resources, despite the fact that it is a living language spoken by around two million people. We built π-YALLI, a corpus that enables research and development of dynamic and static Language Models (LM). We measured the perplexity of π-YALLI, evaluating state-of-the-art LM performance on a manually annotated semantic similarity corpus relative to annotator agreement. The results show the difficulty of working with this π-language, but at the same time open up interesting perspectives for the study of other NLP tasks on Nahuatl.