Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : traductions d'articles publiés

Frédéric Bechet, Adrian-Gabriel Chifu, Karen Pinel-sauvagnat, Benoit Favre, Eliot Maes, Diana Nurbakova (Editors)


Anthology ID:
2025.jeptalnrecital-trad
Month:
6
Year:
2025
Address:
Marseille, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA \\& ARIA
URL:
https://aclanthology.org/2025.jeptalnrecital-trad/
DOI:
Bib Export formats:
BibTeX MODS XML EndNote

pdf bib
Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : traductions d'articles publiés
Frédéric Bechet | Adrian-Gabriel Chifu | Karen Pinel-sauvagnat | Benoit Favre | Eliot Maes | Diana Nurbakova

pdf bib
« Les femmes ne font pas de crise cardiaque ! » Étude des biais de genre dans les cas cliniques synthétiques en français
Fanny Ducel | Nicolas Hiebel | Olivier Ferret | Karën Fort | Aurélie Névéol

De plus en plus de professionnels de santé utilisent des modèles de langue. Cependant, ces modèles présentent et amplifient des biais stéréotypés qui peuvent mettre en danger des vies. Cette étude vise à évaluer les biais de genre dans des cas cliniques générés automatiquement en français concernant dix pathologies. Nous utilisons sept modèles de langue affinés et un outil de détection automatique du genre pour mesurer les associations entre pathologie et genre. Nous montrons que les modèles sur-génèrent des cas décrivant des patients masculins, allant à l’encontre des prévalences réelles. Par exemple, lorsque les invites ne spécifient pas de genre, les modèles génèrent huit fois plus de cas cliniques décrivant des patients (plutôt que des patientes) pour les crises cardiaques. Nous discutons des possibles dommages induits par les modèles de langue, en particulier pour les femmes et les personnes transgenres, de la définition d’un modèle de langue « idéal » et des moyens d’y parvenir.

pdf bib
ACL-rlg : Un dataset pour la génération de listes de lecture
Julien Aubert-Béduchaud | Florian Boudin | Béatrice Daille | Richard Dufour

Se familiariser avec un nouveau domaine scientifique et sa littérature associée peut s’avérer complexe en raison du nombre considérable d’articles disponibles. Les listes de références académiques compilées par des experts, également appelées listes de lecture, offrent un moyen structuré et efficace d’acquérir une vue d’ensemble approfondie d’un domaine scientifique. Dans cet article, nous présentonsACL-rlg , le plus grand ensemble de données ouvertes rassemblant des listes de lecture annotées par des experts. Nous proposons également plusieurs bases de référence pour évaluer la génération de listes de lecture, que nous formalisons comme une tâche de récupération d’information. Notre étude qualitative met en évidence les performances limitées des moteurs de recherche académiques traditionnels et des méthodes d’indexation dans ce contexte, tandis que GPT-4o, bien que produisant de meilleurs résultats, présente des signes potentiels de contamination des données.

pdf bib
AdminSet and AdminBERT : un jeu de données et un modèle de langue pré-entraîné pour explorer le dédale non structuré des données administratives françaises
Thomas Sebbag | Solen Quiniou | Nicolas Stucky | Emmanuel Morin

Les modèles de langue pré-entraînés (PLM) sont largement utilisés en traitement automatique du langage naturel (TALN), mais peu adaptés aux textes administratifs, souvent non standardisés et spécialisés. En France, l’absence de réglementation uniforme et l’hétérogénéité des sources compliquent le traitement des documents administratifs. Pour pallier ce problème, nous proposons AdminBERT, le premier modèle de langue pré-entraîné en français dédié aux documents administratifs. Nous évaluons AdminBERT sur la tâche de reconnaissance des entités nommées (REN), en le comparant à des modèles génériques, un grand modèle de langue (LLM) et une variante du modèle BERT. Nos résultats montrent qu’un pré-entraînement sur des textes administratifs améliore significativement la reconnaissance des entités nommées. Nous mettons à disposition AdminBERT, AdminSet (un corpus de pré-entraînement) et AdminSet-NER, le premier jeu de données annoté pour la REN sur des textes administratifs français.

pdf bib
Anti-surprise : Une métrique complémentaire pour évaluer l’apprentissage lexical des (grands) modèles de langue
Nazanin Shafiabadi | Guillaume Wisniewski

Un grand nombre de travaux s’appuient sur l’analyse des courbes de surprise pour évaluer la manière dont les modèles de langue capture le sens des mots au cours de leur apprentissage. Toutefois, cette approche ne considère que la capacité d’un modèle à prédire un mot dans des contextes appropriés, sans prendre en compte sa capacité à ne pas produire ce mot dans des contextes inappropriés. Pour combler cette lacune, nous introduisons une nouvelle mesure complémentaire, que nous appelons l’anti-surpris, qui évalue la capacité d’un modèle à ne pas utiliser un mot dans des contextes où il serait surprenant voire erroné. Nous montrons que l’analyse conjointe des courbes de surprise et d’anti-surprise permet de mieux caractériser l’acquisition du lexique par les modèles de langue.

pdf bib
Apprentissage par renforcement pour l’alignement des agents LLMs avec des environnements interactifs : quantification et réduction du surapprentissage aux prompts
Mohamed Salim Aissi | Clement Romac | Thomas Carta | Sylvain Lamprier | Pierre-Yves Oudeyer | Olivier Sigaud | Laure Soulier | Nicolas Thome

L’apprentissage par renforcement constitue une approche prometteuse pour aligner les connaissances des Grands Modèles de Langue (LLMs) avec des tâches de prise de décision séquentielle. Cependant, peu d’études ont analysé en profondeur l’impact de l’ajustement des LLMs par apprentissage par renforcement dans un environnement spécifique. Dans cet article, nous proposons un nouveau cadre d’analyse pour évaluer la sensibilité des LLMs aux formulations de prompt après un entraînement par renforcement dans un environnement textuel. Nos résultats montrent que la performance des LLMs se dégrade lorsqu’ils sont confrontés à des formulations de prompt différentes de celles utilisées durant la phase d’entraînement par renforcement. Par ailleurs, nous analysons l’origine de cette sensibilité en examinant les représentations internes du modèle ainsi que les tokens saillants. Enfin, nous proposons l’utilisation d’une fonction de coût contrastive afin d’atténuer cette sensibilité et d’améliorer la robustesse et les capacités de généralisation des LLMs.

pdf bib
Attention Chaînée et Causale pour un Suivi Efficace des Entités
Erwan Fagnou | Paul Caillon | Blaise Delattre | Alexandre Allauzen

Ce travail met en évidence une limitation théorique des transformers pour les tâches de suivi d’entités, montrant qu’ils nécessitent log2(n+ 1) couches pour gérer n changements d’état. Pour surmonter cette contrainte, nous proposons ChaCAL (Chain and Causal Attention Layer), une modification de l’attention standard qui l’interprète comme une matrice d’adjacence, permettant de capturer efficacement les dépendances longues avec une seule couche. Les expériences menées sur un jeu de données synthétique et un autre de suivi d’objets démontrent que ChaCAL surpasse les transformers classiques en réduisant la profondeur du modèle, tout en maintenant des performances compétitives sur une tâche de modélisation du langage. Cette approche optimise l’efficacité des modèles tout en réduisant leur coût computationnel.

pdf bib
Atténuer l’impact de la qualité des références sur l’évaluation des systèmes de résumé grâce aux métriques sans référence
Théo Gigant | Camille Guinaudeau | Marc Decombas | Frédéric Dufaux

Les métriques d’évaluation sont utilisées comme des indicateurs pour évaluer les systèmes de résumé abstractif lorsque les annotations sont trop coûteuses. Pour être utiles, ces métriques doivent permettre une évaluation fine, présenter une forte corrélation avec les annotations humaines, et idéalement ne pas dépendre de la qualité des références. Cependant la plupart des métriques d’évaluation standard pour le résumé sont basées sur des références, et les métriques sans références sont faiblement corrélées à la pertinence des résumés, en particulier pour des documents longs. Dans cet article, nous introduisons une métrique sans référence qui corrèle bien avec la pertinence telle qu’évaluée par des humains, tout en étant très peu coûteuse à calculer. Nous montrons également que cette métrique peut être utilisée en complément de métriques basées sur des références afin d’améliorer leur robustesse dans des situations où la qualité des références est faible.

pdf bib
Combler les lacunes de Wikipédia : tirer parti de la génération de texte pour améliorer la couverture encyclopédique des groupes sous-représentés
Simon Mille | Massimiliano Pronesti | Craig Thomson | Michela Lorandi | Sophie Fitzpatrick | Rudali Huidrom | Mohammed Sabry | Amy O’Riordan | Anya Belz

Wikipédia a des lacunes systématiques dans sa couverture des langues peu dotées ainsi que des groupes sous-représentés (par exemple, les femmes). Cet article présente un nouvel outil pour soutenir les efforts visant à combler ces lacunes en générant automatiquement des débuts d’articles en anglais, français et irlandais, et en facilitant la post-édition et la mise en ligne sur Wikipédia. Un générateur basé sur des règles et un LLM sont utilisés pour générer deux articles alternatifs à partir de graphes de connaissances DBpedia ou Wikidata sélectionnés par l’utilisateur, permettant à l’article généré via LLM, souvent plus fluide mais plus sujet aux erreurs, d’être vérifié en termes de contenu par rapport à l’article généré par des règles, plus fiable, mais moins fluide. Le code de l’outil est disponible sur https://github.com/dcu-nlg/wiki-gen-demo et il est actuellement déployé sur http://ec2-18-224-151-90.us-east-2.compute.amazonaws.com:3000/.

pdf bib
EmoDynamiX : Prédiction de stratégies de dialogue pour le support émotionnel via la modélisation de mélange d’émotions et de la dynamique du discours
Chenwei Wan | Matthieu Labeau | Chloé Clavel

Concevoir des systèmes conversationnels dotés d’une intelligence émotionnelle pour apporter du réconfort et des conseils aux personnes en détresse constitue un domaine de recherche particulièrement prometteur. Récemment, grâce aux avancées des grands modèles de langue (LLMs), les agents conversationnels entraînés de bout en bout sans étapes explicites de prédiction de stratégie de dialogue sont devenus plus courants. Cependant, la planification implicite de stratégie manque de transparence, et des études récentes montrent que la préférence inhérente des LLMs pour certaines stratégies socioémotionnelles nuit à la qualité du soutien émotionnel fourni. Pour relever ce défi, nous proposons de dissocier la prédiction de stratégies de la génération du langage et introduisons un nouveau cadre de prédiction de stratégie conversationnelle, EmoDynamiX, qui modélise la dynamique du discours entre les émotions fines du côté de l’utilisateur et les stratégies du système au moyen d’un graphe hétérogène, afin d’améliorer à la fois les performances et la transparence. Les résultats expérimentaux sur deux jeux de données de conversations pour le support émotionnel (ESC) montrent qu’EmoDynamiX surpasse de manière significative les méthodes antérieures à l’état de l’art (avec une meilleure maîtrise et un biais de préférence plus faible). Notre approche offre également une meilleure transparence en permettant de retracer le processus de prise de décision.

pdf bib
Évaluation de la confidentialité des textes cliniques synthétiques générés par des modèles de langue
Foucauld Estignard | Sahar Ghannay | Julien Girard-Satabin | Nicolas Hiebel | Aurélie Névéol

Les grands modèles de langue (LLM) peuvent être utilisés pour produire des documents synthétiques similaires à des documents réels dont la disponibilité est limitée pour des raisons de confidentialité ou de droits d’auteur. Dans cet article, nous étudions les risques en lien avec la confidentialité dans les documents générés automatiquement. Nous utilisons des textes synthétiques générés à partir d’un modèle pré-entraîné et affiné sur des cas cliniques en français afin d’évaluer ces risques selon trois critères : (1) la similarité entre un corpus d’entraînement réel et le corpus synthétique (2) les corrélations entre les caractéristiques cliniques dans le corpus d’entraînement et le corpus synthétique et (3) une attaque par inférence d’appartenance (MIA, en anglais) utilisant un modèle affiné sur le corpus synthétique. Nous identifions des associations de caractéristiques cliniques qui suggèrent que le filtrage du corpus d’entraînement pourrait contribuer à la préservation de la confidentialité. Les attaques par inférence d’appartenance n’ont pas été concluantes.

pdf bib
Évaluation des LLMs pour l’Attribution de Citations dans les Textes Littéraires: une Étude de LLaMa3
Gaspard Michel | Elena V. Epure | Romain Hennequin | Christophe Cerisara

Les grands modèles de langage (LLMs) ont montré des résultats prometteurs dans diverses tâches littéraires, souvent liés la mémorisation de détails complexes sur la narration et les personnages fictifs. Dans cet article, nous évaluons la capacité de Llama-3 à attribuer les citations à leur locuteur dans les romans Anglais du 18ème au 20ème siècle. Le LLM obtient des résultats impressionnants sur un corpus de 28 romans, surpassant largement les performances publiées de ChatGPT et de modèles basés sur de puissants encodeurs de texte. Nous validons ensuite ces résultats en analysant l’impact de la mémorisation des passages de livres et d’une éventuelle contamination des annotations. Nos analyses montrent que ces formes de mémorisation n’expliquent pas l’important gain de performance, établissant ainsi Llama-3 comme le nouvel état de l’art pour l’attribution des citations dans la littérature anglaise. L’article est disponible sur le site suivant : https://aclanthology.org/ 2025.naacl-short.62/

pdf bib
Extraction de mots-clés à partir d’articles scientifiques: comparaison entre modèles traditionnels et modèles de langue
Motasem Alrahabi | Nacef Ben Mansour | Hamed Rahimi

L’extraction automatique des mots-clés est cruciale pour résumer le contenu des documents et affiner la recherche d’informations. Dans cette étude, nous comparons les performances de plusieurs modèles d’extraction et de génération de mots-clés appliqués aux résumés d’articles issus des archives HAL : des approches basées sur des statistiques et des modèles vectoriels, ainsi que des approches génératives modernes utilisant les LLMs. Les résultats montrent que les LLMs surpassent largement les méthodes traditionnelles en termes de précision et de pertinence, même en configuration zero-shot, et que l’inclusion des titres d’articles améliore significativement les scores F1. Nous introduisons également une nouvelle métrique pour évaluer les performances des LLMs en tenant compte des coûts de traitement, offrant ainsi une perspective équilibrée entre efficacité et coût.

pdf bib
Faut-il éliminer toutes les hallucinations dans un résumé abstractif pour le domaine juridique ?
Nihed Bendahman | Karen Pinel-Sauvagnat | Gilles Hubert | Mokhtar Boumedyen Billami

La génération automatique de résumés dans le domaine juridique requiert une compréhension approfondie des spécificités du domaine, notamment en ce qui concerne le vocabulaire employé par les experts. En effet, ces derniers s’appuient largement sur leurs connaissances externes lors de la rédaction des résumés, afin de contextualiser les principales entités juridiques (lois) du document. Cela conduit à des résumés de référence contenant de nombreuses abstractions, que les modèles de l’état de l’art peinent à reproduire. Dans cet article, nous proposons une approche de génération de résumé basée sur les entités, visant à apprendre au modèle à générer des hallucinations factuelles, aussi proches que possible des abstractions présentes dans les résumés de référence. Nous évaluons notre approche sur deux corpus juridiques différents, contenant des documents en anglais et en français. Les résultats montrent que notre approche permet de réduire les hallucinations non factuelles tout en maximisant la couverture des résumés et les hallucinations factuelles. De plus, la qualité globale des résumés est également améliorée, démontrant ainsi la pertinence de la génération de résumé guidée par les entités dans le domaine juridique.

pdf bib
GeNRe : un système de neutralisation automatique du genre exploitant les noms collectifs
Enzo Doyen | Amalia Todirascu

Les outils de traitement automatique des langues (TAL) ont tendance à introduire des biais de genre, notamment par une surutilisation du masculin générique. La tâche de réécriture du genre en TAL, qui vise à remplacer des formes genrées par des formes neutres, inclusives ou contraires, peut permettre de réduire ces biais. Bien que des travaux de neutralisation automatique du genre aient été conduits en anglais, aucun projet similaire n’existe pour le français. Cet article présente GeNRe, le tout premier système de neutralisation automatique du genre, qui exploite les noms collectifs. Nous présentons un modèle à base de règles (SBR) et affinons deux modèles de langue à partir des données générées. Nous nous intéressons aussi aux modèles d’instruction, jusque-là inutilisés pour cette tâche, en particulier Claude 3 Opus. Nous obtenons des résultats similaires pour le SBR et Claude 3 Opus lorsqu’il est utilisé conjointement avec notre dictionnaire.

pdf bib
Graphes, NER et LLMs pour la classification non supervisée de documents
Imed Keraghel | Mohamed Nadif

Les récents progrès en apprentissage automatique, notamment les modèles de langage de grande taille (LLMs) tels que BERT et GPT, offrent des plongements contextuels riches qui améliorent la représentation des textes. Cependant, les approches actuelles de clustering de documents négligent souvent les relations profondes entre entités nommées ainsi que le potentiel des représentations issues des LLMs. Cet article propose une nouvelle approche qui intègre la reconnaissance d’entités nommées (NER) et les embeddings de LLMs dans un cadre fondé sur les graphes pour le clustering de documents. La méthode construit un graphe dont les nœuds représentent les documents et dont les arêtes sont pondérées par la similarité entre entités nommées, le tout optimisé au moyen d’un réseau de neurones convolutifs sur graphes (GCN). Cela permet un regroupement plus efficace des documents sémantiquement proches. Les résultats expérimentaux indiquent que notre approche surpasse les méthodes traditionnelles basées sur la cooccurrence, en particulier pour les documents riches en entités nommées.

pdf bib
HISTOIRESMORALES: Un jeu de données français pour évaluer l’alignement moral des modèles de langage
Thibaud Leteno | Irina Proskurina | Antoine Gourru | Julien Velcin | Charlotte Laclau | Guillaume Metzler | Christophe Gravier

L’alignement des modèles de langage avec les valeurs humaines est essentiel, à mesure qu’ils s’intègrent dans la vie quotidienne. Ces modèles sont souvent adaptés aux préférences des utilisateurs mais il est important de veiller à ce qu’ils respectent des normes morales en situation réelle. Malgré des avancées dans d’autres langues, le raisonnement moral des modèles en français reste peu étudié. Pour combler cette lacune, nous présentons HistoiresMorales, un jeu de données français dérivé de MoralStories, traduit puis affiné avec des locuteurs natifs pour assurer précision grammaticale et ajustement culturel. Afin de favoriser de futures recherches, nous menons des expériences préliminaires sur l’alignement des modèles multilingues en français et en anglais. Bien que les modèles de langage s’alignent généralement sur les normes morales humaines, nous observons qu’ils restent influençables, tant vers un alignement moral qu’immoral.

pdf bib
Incorporation de Traits de Personnalité dans les Agents Conversationnels à base de GML : Étude de Cas de l’Assistance Client en Français
Ahmed Njifenjou | Virgile Sucal | Bassam Jabaian | Fabrice Lefèvre

Parmi les diverses théories élaborées pour capturer la complexité multidimensionnelle de la personnalité humaine, particulièrement en psychologie, le modèle des Big Five, aussi appelé « OCEAN », en raison de ses cinq dimensions principales, s’est affirmé comme un cadre analytique prééminent. Ce modèle a été incorporé dans le développement de chatbots mais les méthodes actuelles, comme l’emploi de paires binaires de traits ou l’analyse isolée de chaque trait, ne parviennent pas à rendre compte de la richesse nuancée de la personnalité humaine. Dans cette recherche, nous introduisons une approche fondée sur une représentation vectorielle, où chacune des dimensions représente l’intensité d’un trait OCEAN sur une échelle continue. Cette nouvelle méthode accroît la flexibilité et améliore la fidélité du modèle dans la capture de la diversité des personnalités. L’application aux scénarios d’assistance client en français démontre que, sur la base de conversations humains-bots ainsi que bots-bots, les vecteurs de personnalité attribués sont distinguables à la fois par les humains et par les GML. Leurs évaluations subjectives confirment les impacts mesurables de la personnalité attribuée sur l’expérience utilisateur, l’efficacité de l’agent et la qualité des conversations.

pdf bib
Inférence en langue naturelle appliquée au recrutement de patients pour les essais cliniques : le point de vue du patient
Mathilde Aguiar | Pierre Zweigenbaum | Nona Naderi

Recruter des patients pour les essais cliniques est long et complexe. Habituellement, le processus de recrutement est initié par un professionnel de santé qui propose à un patient de participer à l’essai clinique. Promouvoir les essais directement aux patients via des plateformes en ligne pourrait aider à en atteindre un plus grand nombre. Dans cette étude, nous nous intéressons au cas où le patient est l’initiateur de la démarche et veut savoir s’il est éligible à un essai clinique, tout cela en utilisant son propre langage patient. Pour déterminer si l’utilisation d’un tel langage permet tout de même au modèle de langue de déterminer l’égilibilité du patient pour l’essai clinique, nous construisons la tâche Natural Language Inference for Patient Recrutement (NLI4PR). Pour cela nous adaptons le jeu de données TREC 2022 Clinical Trial Track en réécrivant manuellement les profils médicaux en langage patient. Nous extrayons également les essais cliniques où les patients étaient labellisés « éligible » ou « exclu ». Nous soumettons des amorces à plusieurs grands modèles de langue, et obtenons un score F1 compris entre 56,6 et 71,8 avec le langage patient, contre 64,7 à 73,1 pour du langage médical. Nous observons que l’utilisation du langage patient ne mène qu’à une dégradation de performance relativement petite pour notre meilleur modèle. Cela suggère qu’avoir le patient en tant que point de départ du recrutement pourrait être réalisable. Nos scripts ainsi que nos jeux de données sont disponibles sur Github et HuggingFace(Aguiar et al. , 2025).

pdf bib
La structure du contenu textuel a-t-elle un impact sur les modèles linguistiques pour le résumé automatique ?
Eve Sauvage | Sabrina Campano | Lydia Ould-Ouali | Cyril Grouin

Le traitement de séquences longues par des modèles de langues reste un sujet à part entière, y compris pour le résumé automatique, malgré des améliorations récentes. Dans ce travail, nous présentons des expériences de résumé automatique d’articles scientifiques à l’aide de modèles BART, prenant en compte les informations textuelles provenant de passages distincts des textes à résumer. Nous démontrons que la prise en compte de la structure du document améliore les performances des modèles et se rapproche des performances de LongFormer en anglais.

pdf bib
Lost In Variation : extraction non-supervisée de motifs lexico-syntaxiques dans des textes en moyen arabe
Julien Bezançon | Rimane Karam | Gaël Lejeune

Contrairement à l’arabe standard moderne ou à certains dialectes de l’arabe, le moyen arabe a peu été étudié en TAL. Pourtant, cette famille de variétés présente un défi majeur : elle mêle des traits de standard et des traits de dialecte en plus de posséder des caractéristiques qui lui sont propres. Nous présentons ici une méthode pour identifier, extraire et classer les variantes de 13 formules du moyen arabe, relevées manuellement. Ces formules proviennent des neuf premiers tomes du corpus SIRAT AL-MALIK AL-ZAHIR BAYBARS, un corpus de littérature populaire rédigé dans une variété de moyen arabe proche du dialecte damascène. Nous classons 20 386 séquences en se fondant sur leur similarité à plusieurs niveaux avec les formules étudiées. Ce classement nous permet d’observer que ces formules varient sur les plans lexical, morphologique et graphique tout en restant strictement invariables sémantiquement et syntaxiquement.

pdf bib
NuNER : Pré-entraînement d’un encodeur pour la reconnaissance d’entités nommées avec des données annotées automatiquement
Sergei Bogdanov | Alexandre Constantin | Timothée Bernard | Benoît Crabbé | Étienne Bernard

Les grands modèles de langues (ou LLM, pour « large language models ») peuvent s’avérer très efficaces pour l’annotation de données, ouvrant la voie à de nouvelles approches pour développer des systèmes de traitement automatique des langues par apprentissage automatique. Dans cet article, nous détaillons l’utilisation d’un LLM dans le développement de NuNER, un modèle d’encodage du texte, compact et spécialisé dans la tâche de reconnaissance des entités nommées (ou NER, pour « named entity recognition »). NuNER fait ainsi partie de la famille des modèles de fondation spécialisés. L’intérêt de NuNER est qu’il ne nécessite que très peu de données d’affinage pour obtenir un système de NER performant, quel que soit le domaine cible. Nous montrons qu’en régime d’apprentissage avec peu d’exemples (« few-shot learning »), NuNER surpasse les principaux modèles de fondation de taille comparable et a des performances similaires à celles de modèles de bien plus grande taille. Nos expériences montrent que la taille du jeu de pré-entraînement mais aussi la diversité des types d’entités qui y occurrent jouent un rôle essentiel dans ces résultats. NuNER et l’ensemble de ses données d’entraînement sont disponibles sous licence libre MIT.

pdf bib
PatientDx : Fusion des grands modèles de langue pour la protection de la confidentialité des données dans le domaine de la santé
Jose G. Moreno | Jesús Lovón-Melgarejo | M’Rick Robin-Charlet | Christine-Damase-Michel | Lynda Tamine

L’affinage des grands modèles de langue (abrégé LLM de l’anglais large language model) est devenu la pratique courante pour améliorer la performance des modèles sur une tâche donnée. Cependant, cette amélioration de performance s’accompagne d’un coût : l’entraînement sur de vastes quantités de données annotées potentiellement sensibles, ce qui soulève d’importantes préoccupations en matière de confidentialité des données. Le domaine de la santé constitue l’un des domaines les plus sensibles exposés aux problèmes de confidentialité des données. Dans cet article, nous présentons “PatientDx”, une architecture de fusion de modèles permettant de concevoir des LLM efficaces pour les tâches prédictives en santé sans nécessiter d’affinage ni d’adaptation sur les données des patients. Notre proposition repose sur des techniques récemment proposées connues sous le nom de fusion de LLM et vise à optimiser une stratégie de fusion modulaire. “PatientDx” utilise un modèle pivot adapté au raisonnement numérique et ajuste les hyperparamètres sur des exemples en fonction d’une métrique de performance, mais sans entraîner le LLM sur ces données. Les expériences utilisant les tâches de prédiction de mortalité de l’ensemble de données MIMIC-IV montrent des améliorations jusqu’à 7% en termes d’AUROC par rapport aux modèles initiaux. De plus, nous confirmons que, comparée aux modèles affinés, notre proposition est moins sujette aux problèmes de fuite de données sans nuire à la performance. Enfin, nous démontrons qualitativement les capacités de notre proposition à travers une étude de cas. Notre meilleur modèle est publiquement disponible : https://huggingface.co/Jgmorenof/mistral_merged_0_4. Ceci est le résumé de l’article publié “PatientDx : Merging Large Language Models for Protecting Data-Privacy in Healthcare” dans l’atelier CL4Health, NAACL 2025 (Moreno et al., 2025).

pdf bib
Représenter le style au-delà des thématiques : une étude d’impact sur la dispersion vectorielle de différents modèles de langage
Benjamin Icard | Evangelia Zve | Lila Sainero | Alice Breton | Jean-Gabriel Ganascia

Cet article vise à étudier comment le style d’écriture influence la dispersion des plongements vectoriels de divers grands modèles de langage. Alors que les premiers modèles de type transformeur étaient prin- cipalement axés sur la modélisation thématique, cette étude examine le rôle du style d’écriture dans la configuration de l’espace vectoriel. À partir d’un corpus littéraire faisant varier thématiques et styles, nous comparons la sensibilité des modèles de langage en français et en anglais. En analysant ainsi l’impact spécifique du style sur la dispersion vectorielle, nous cherchons à mieux comprendre com- ment les modèles de langage traitent l’information stylistique, contribuant ainsi à leur interprétabilité globale. Ceci est un résumé de l’article “Embedding Style Beyond Topics: Analyzing Dispersion Effects Across Different Language Models” publié dans les actes de la conférence COLING 2025 (Icard et al., 2025) et accessible à l’URL : https://aclanthology.org/2025.coling-main.236/.

pdf bib
SCOPE : un cadre d’entrainement auto-supervisé pour améliorer la fidélité dans la génération conditionnelle de texte
Song Duong | Florian Le Bronnec | Alexandre Allauzen | Vincent Guigue | Alberto Lumbreras | Laure Soulier | Patrick Gallinari

Les modèles de langage (LLM) produisent souvent des hallucinations lors de la génération conditionnelle de texte, introduisant des informations non fidèles ou non ancrées dans le contexte. Ce phénomène est particulièrement problématique en résumé automatique et en génération texte-à-partirde-données, où les sorties doivent refléter précisément l’entrée. Nous proposons SCOPE, une méthode auto-supervisée innovante générant automatiquement des exemples non fidèles plausibles pour affiner les modèles par apprentissage par préférences. SCOPE pousse ainsi les modèles à préférer les sorties fidèles. Nous évaluons notre approche sur divers jeux de données de génération texte-à-partirde-données et de résumé. Simple à implémenter, notre méthode nettement les alternatives existantes selon des métriques automatiques et des évaluations humaines ainsi qu’avec GPT-4.

pdf bib
SELEXINI – un grand corpus français, divers et parsé automatiquement
Manon Scholivet | Agata Savary | Louis Estève | Marie Candito | Carlos Ramisch

L’annotation de grands corpus de texte est essentielle pour de nombreuses tâches de Traitement Automatique des Langues. Dans cet article, nous présentons SELEXINI, un grand corpus français annoté automatiquement en syntaxe. Ce corpus est composé de deux parties : la partie BigScience, et la partie HPLT. Les documents de la partie HPLT ont été sélectionnés dans le but de maximiser la diversité lexicale du corpus total SELEXINI. Une analyse de l’impact de cette sélection sur la diversité syntaxique a été réalisée, ainsi qu’une étude de la qualité des nouveaux mots issus de la partie HPLT du corpus SELEXINI. Nous avons pu montrer que malgré l’introduction de nouveaux mots considérés comme intéressants (formes de conjugaison rares, néologismes, mots rares,...), les textes issus de HPLT sont extrêmement bruités. De plus, l’augmentation de la diversité lexicale n’a pas permis d’augmenter la diversité syntaxique.

pdf bib
Sondage des Modèles de Langue sur leur Source de Connaissance
Zineddine Tighidet | Andrea Mogini | Jiali Mei | Patrick Gallinari | Benjamin Piwowarski

Les grands modèles de langue (GML) sont souvent confrontés à des conflits entre leurs connaissance interne (connaissance paramétrique, CP) et la connaissance externe fournie pendant l’inférence (connaissance contextuelle, CC). Comprendre comment les GML priorisent une source de connaissance par rapport à l’autre reste un défi. Dans cet article, nous proposons un nouveau cadre de sondage pour explorer les mécanismes régissant la sélection entre CP et CC dans les GML. En utilisant des prompts contrôlées conçues pour contredire la CP du modèle, nous démontrons que des activations spécifiques du modèle sont indicatives de la source de connaissance employée. Nous évaluons ce cadre sur divers GML de différentes tailles et démontrons que les activations des couches intermédiaires, en particulier celles liées aux relations dans l’entrée, sont cruciales pour prédire la sélection de la source de connaissances, ouvrant la voie à des modèles plus fiables capables de gérer efficacement les conflits de connaissances.

pdf bib
Vers les Sens et Au-delà : Induire des Concepts Sémantiques Avec des Modèles de Langue Contextuels
Bastien Liétard | Pascal Denis | Mikaela Keller

La polysémie et la synonymie sont deux facettes cruciales et interdépendantes de l’ambiguïté lexicosémantique, mais elles sont souvent considérées indépendamment dans les problèmes pratiques en TAL. Dans cet article, nous introduisons l’induction de concepts, une tâche non-supervisée consistant à apprendre un partitionnement diffus de mots définissant un ensemble de concepts directement à partir de données. Cette tâche généralise l’induction du sens des mots (via l’appartenance d’un mot à de multiples groupes). Nous proposons une approche à deux niveaux pour l’induction de concepts, avec une vue centrée sur les lemmes et une vue globale du lexique. Nous évaluons le regroupement obtenu sur les données annotées de SemCor et obtenons de bonnes performances (BCubed-F1 supérieur à 0,60). Nous constatons que les deux niveaux sont mutuellement bénéfiques pour induire les concepts et les sens. Enfin, nous créons des plongements dits « statiques » représentant nos concepts induits et obtenons des performances compétitives par rapport à l’état de l’art en Word-in-Context.