Laure Soulier

2025

pdf bib abs
Reinforcement Learning for Aligning Large Language Models Agents with Interactive Environments: Quantifying and Mitigating Prompt Overfitting
Mohamed Salim Aissi | Clément Romac | Thomas Carta | Sylvain Lamprier | Pierre-Yves Oudeyer | Olivier Sigaud | Laure Soulier | Nicolas Thome
Findings of the Association for Computational Linguistics: NAACL 2025

Reinforcement learning (RL) is a promising approach for aligning large language models (LLMs) knowledge with sequential decision-making tasks. However, few studies have thoroughly investigated the impact on LLM agents capabilities of fine-tuning them with RL in a specific environment. In this paper, we propose a novel framework to analyze the sensitivity of LLMs to prompt formulations following RL training in a textual environment. Our findings reveal that the performance of LLMs degrades when faced with prompt formulations different from those used during the RL training phase. Besides, we analyze the source of this sensitivity by examining the model’s internal representations and salient tokens. Finally, we propose to use a contrastive loss to mitigate this sensitivity and improve the robustness and generalization capabilities of LLMs.

pdf bib abs
Apprentissage par renforcement pour l’alignement des agents LLMs avec des environnements interactifs : quantification et réduction du surapprentissage aux prompts
Mohamed Salim Aissi | Clement Romac | Thomas Carta | Sylvain Lamprier | Pierre-Yves Oudeyer | Olivier Sigaud | Laure Soulier | Nicolas Thome
Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : traductions d'articles publiés

L’apprentissage par renforcement constitue une approche prometteuse pour aligner les connaissances des Grands Modèles de Langue (LLMs) avec des tâches de prise de décision séquentielle. Cependant, peu d’études ont analysé en profondeur l’impact de l’ajustement des LLMs par apprentissage par renforcement dans un environnement spécifique. Dans cet article, nous proposons un nouveau cadre d’analyse pour évaluer la sensibilité des LLMs aux formulations de prompt après un entraînement par renforcement dans un environnement textuel. Nos résultats montrent que la performance des LLMs se dégrade lorsqu’ils sont confrontés à des formulations de prompt différentes de celles utilisées durant la phase d’entraînement par renforcement. Par ailleurs, nous analysons l’origine de cette sensibilité en examinant les représentations internes du modèle ainsi que les tokens saillants. Enfin, nous proposons l’utilisation d’une fonction de coût contrastive afin d’atténuer cette sensibilité et d’améliorer la robustesse et les capacités de généralisation des LLMs.

pdf bib abs
SCOPE : un cadre d’entrainement auto-supervisé pour améliorer la fidélité dans la génération conditionnelle de texte
Song Duong | Florian Le Bronnec | Alexandre Allauzen | Vincent Guigue | Alberto Lumbreras | Laure Soulier | Patrick Gallinari
Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : traductions d'articles publiés

Les modèles de langage (LLM) produisent souvent des hallucinations lors de la génération conditionnelle de texte, introduisant des informations non fidèles ou non ancrées dans le contexte. Ce phénomène est particulièrement problématique en résumé automatique et en génération texte-à-partirde-données, où les sorties doivent refléter précisément l’entrée. Nous proposons SCOPE, une méthode auto-supervisée innovante générant automatiquement des exemples non fidèles plausibles pour affiner les modèles par apprentissage par préférences. SCOPE pousse ainsi les modèles à préférer les sorties fidèles. Nous évaluons notre approche sur divers jeux de données de génération texte-à-partirde-données et de résumé. Simple à implémenter, notre méthode nettement les alternatives existantes selon des métriques automatiques et des évaluations humaines ainsi qu’avec GPT-4.

pdf bib abs
Clarification des Ambiguïtés : Sur le Rôle des Types d’Ambiguïté dans les Méthodes d’Amorçage pour la Génération de Clarifications
Anfu Tang | Laure Soulier | Vincent Guigue
Actes de la 20e Conférence en Recherche d’Information et Applications (CORIA)

En recherche d’information (RI), il est essentiel de fournir des clarifications appropriées pour concevoir un système de dialogue proactif et guider l’utilisateur. Grâce au développement des grands modèles de langage (LLMs), des études récentes explorent des méthodes d’amorçage pour générer des clarifications à l’aide de chaîne de raisonnement (Chain of Thought, CoT). Cependant, l’amorçage CoT ne permet pas de distinguer les caractéristiques des différents besoins en information, impactant la résolution des ambiguïtés. Dans ce travail, nous cherchons à modéliser et intégrer les ambiguïtés liées au besoin en information dans le processus de génération de clarifications. Nous étudions l’impact des schémas d’amorçage en proposant Ambiguity Type-Chain of Thought (AT-CoT), qui impose à CoT de prédire d’abord les types d’ambiguïté, puis de générer les clarifications correspondantes. Des expériences sont menées sur divers jeux de données afin de comparer AT-CoT à plusieurs modèles de référence. Nous réalisons également des simulations utilisateur pour une évaluation extrinsèque.

pdf bib abs
Comprendre la Nature des Signaux de Correspondance dans les Modèles Neuronaux pour la RI
Mathias Vast | Basile Van Cooten | Laure Soulier | Benjamin Piwowarski
Actes de la 20e Conférence en Recherche d’Information et Applications (CORIA)

Les architectures de recherche d’information (RI) neuronale, en particulier celles basées sur l’interaction, sont des modèles très performants dont les mécanismes restent largement méconnus. La plupart des travaux visant à expliquer leur comportement se sont attachés à décrire des processus en surface (par exemple, quels éléments de l’entrée influencent la prédiction ? le modèle respecte t-il les axiomes connus de la RI ?) mais ne décrivent pas précisément le processus d’appariement. Dans cet article, nous apportons un nouvel éclairage sur le mécanisme de correspondance en analysant le processus d’attention, et en mettant en évidence le rôle crucial de certaines têtes d’attention ainsi que la nature des signaux qui sont manipulés.

2024

State-space models are a low-complexity alternative to transformers for encoding long sequences and capturing long-term dependencies. We propose LOCOST: an encoder-decoder architecture based on state-space models for conditional text generation with long context inputs. With a computational complexity of 𝒪(L log L), this architecture can handle significantly longer sequences than state-of-the-art models that are based on sparse attention patterns. We evaluate our model on a series of long document abstractive summarization tasks. The model reaches a performance level that is 93-96% comparable to the top-performing sparse transformers of the same size while saving up to 50% memory during training and up to 87% during inference. Additionally, LOCOST effectively handles input texts exceeding 600K tokens at inference time, setting new state-of-the-art results on full-book summarization and opening new perspectives for long input processing.

pdf bib abs
LOCOST: Modèles Espace-État pour le Résumé Abstractif de Documents Longs
Florian Le Bronnec | Song Duong | Alexandre Allauzen | Vincent Guigue | Alberto Lumbreras | Laure Soulier | Patrick Gallinari
Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 2 : traductions d'articles publiès

Les modèles espace-état constituent une alternative peu coûteuse en termes de complexité de calcul aux transformeurs pour le codage de longues séquences et la capture de longues dépendances. Nous proposons LOCOST: une architecture encodeur-décodeur basée sur des modèles espace-état pour la génération de textes conditionnels avec de longues entrées contextuelles. Avec une complexité de calcul de O(L log L), cette architecture peut traiter des séquences beaucoup plus longues que les modèles de référence qui sont basés sur des modèles d’attention parcimonieux. Nous évaluons notre modèle sur une série de tâches de résumé abstractif de longs documents. Le modèle atteint un niveau de performance qui est 93-96 comparable aux transformeurs parcimonieux les plus performants de la même taille tout en économisant jusqu’à 50 de mémoire pendant l’apprentissage et jusqu’à 87 pendant l’inférence. En outre, LOCOST traite efficacement les entrées dépassant 600K tokens au moment de l’inférence, établissant de nouveaux résultats de référence sur le résumé de livre complet et ouvrant de nouvelles perspectives pour le traitement des entrées longues.

2023

pdf bib abs
Improving generalization in large langue model by learning prefix subspaces
Louis Falissard | Vincent Guigue | Laure Soulier
Findings of the Association for Computational Linguistics: EMNLP 2023

This article focuses on large language models (LLMs) fine-tuning in the scarce data regime (also known as “few-shot learning setting”). We propose a method to increase the generalization capabilities of LLMs based on neural network subspaces. This optimization method, recently introduced in computer vision, aims to improve model generalization by identifying wider local optima through the joint optimization of an entire simplex of models in parameter space. Although this property would be highly beneficial in the context of training large language models in the “few-shot learning” setting, its adaptation to massive, pretrained transformers poses some challenges. First, their considerable number of parameters make it difficult to train several model jointly, and second, their deterministic parameter initialisation schemes make them unfit to the subspace method as originaly proposed. We show in this paper that its application to “Parameter Efficient Fine-Tuning” (PEFT) methods, however, is relatively natural, and we propose to apply it to prefix-tuning, by learning entire simplexes of continous prefixes. We test our method on a variant of the GLUE benchmark adapted to the few-shot learning setting, and show that both our contributions (learning prefix simplexes, and non-deterministic validation metric inference) jointly lead to a gain in average performances compared to state of the art methods.

pdf bib abs
Enhancing factualness and controllability of Data-to-Text Generation via data Views and constraints
Craig Thomson | Clement Rebuffel | Ehud Reiter | Laure Soulier | Somayajulu Sripada | Patrick Gallinari
Proceedings of the 16th International Natural Language Generation Conference

Neural data-to-text systems lack the control and factual accuracy required to generate useful and insightful summaries of multidimensional data. We propose a solution in the form of data views, where each view describes an entity and its attributes along specific dimensions. A sequence of views can then be used as a high-level schema for document planning, with the neural model handling the complexities of micro-planning and surface realization. We show that our view-based system retains factual accuracy while offering high-level control of output that can be tailored based on user preference or other norms within the domain.

pdf bib abs
Augmentation de jeux de données RI pour la recherche conversationnelle à initiative mixte
Pierre Erbacher | Philippe Preux | Jian-Yun Nie | Laure Soulier
Actes de CORIA-TALN 2023. Actes de la 18e Conférence en Recherche d'Information et Applications (CORIA)

Une des particularités des systèmes de recherche conversationnelle est qu’ils impliquent des initiatives mixtes telles que des questions de clarification des requêtes générées par le système pour mieux comprendre le besoin utilisateur. L’évaluation de ces systèmes à grande échelle sur la tâche finale de RI est très difficile et nécessite des ensembles de données adéquats contenant de telles interactions. Cependant, les jeux de données actuels se concentrent uniquement sur les tâches traditionnelles de RI ad hoc ou sur les tâches de clarification de la requête. Pour combler cette lacune, nous proposons une méthodologie pour construire automatiquement des ensembles de données de RI conversationnelle à grande échelle à partir d’ensembles de données de RI ad hoc afin de faciliter les explorations sur la RI conversationnelle. Nous effectuons une évaluation approfondie montrant la qualité et la pertinence des interactions générées pour chaque requête initiale. Cet article montre la faisabilité et l’utilité de l’augmentation des ensembles de données de RI ad-hoc pour la RI conversationnelle.

pdf bib abs
Apprentissage de sous-espaces de préfixes
Louis Falissard | Vincent Guigue | Laure Soulier
Actes de CORIA-TALN 2023. Actes de la 18e Conférence en Recherche d'Information et Applications (CORIA)

Cet article propose une nouvelle façon d’ajuster des modèles de langue en “Few-shot learning” se basant sur une méthode d’optimisation récemment introduite en vision informatique, l’apprentissage de sous-espaces de modèles. Cette méthode, permettant de trouver non pas un point minimum local de la fonction coût dans l’espace des paramètres du modèle, mais tout un simplexe associé à des valeurs basses, présente typiquement des capacités de généralisation supérieures aux solutions obtenues par ajustement traditionnel. L’adaptation de cette méthode aux gros modèles de langue n’est pas triviale mais son application aux méthodes d’ajustement dites “Parameter Efficient” est quant à elle relativement naturelle. On propose de plus une façon innovante d’utiliser le simplexe de solution étudié afin de revisiter la notion de guidage de l’ajustement d’un modèle par l’inférence d’une métrique de validation, problématique d’actualité en “few-shot learning”. On montre finalement que ces différentes contributions centrées autour de l’ajustement de sous-espaces de modèles est empiriquement associée à un gain considérable en performances de généralisation sur les tâches de compréhension du langage du benchmark GLUE, dans un contexte de “few-shot learning”.

pdf bib abs
Intégration du raisonnement numérique dans les modèles de langue : État de l’art et direction de recherche
Sarah Abchiche | Lynda Said Lhadj | Vincent Guigue | Laure Soulier
Actes de CORIA-TALN 2023. Actes de la 18e Conférence en Recherche d'Information et Applications (CORIA)

Ces dernières années, les modèles de langue ont connu une évolution galopante grâce à l’augmentation de la puissance de calcul qui a rendu possible l’utilisation des réseaux de neurones. Parallèlement, l’intégration du raisonnement numérique dans les modèles de langue a suscité un intérêt grandissant. Pourtant, bien que l’entraînement des modèles de langue sur des données numériques soit devenu un paradigme courant, les modèles actuels ne parviennent pas à effectuer des calculs de manière satisfaisante. Pour y remédier, une solution est d’entraîner les modèles de langue à utiliser des outils externes tels qu’une calculatrice ou un “runtime” de code python pour effectuer le raisonnement numérique. L’objectif de ce papier est double, dans un premier temps nous passons en revue les travaux de l’état de l’art sur le raisonnement numérique dans les modèles de langue et dans un second temps nous discutons des différentes perspectives de recherche pour augmenter les compétences numériques des modèles.

pdf bib abs
CoSPLADE : Adaptation d’un Modèle Neuronal Basé sur des Représentations Parcimonieuses pour la Recherche d’Information Conversationnelle
Nam Le Hai | Thomas Gerald | Thibault Formal | Jian-Yun Nie | Benjamin Piwowarksi | Laure Soulier
Actes de CORIA-TALN 2023. Actes de la 18e Conférence en Recherche d'Information et Applications (CORIA)

La recherche conversationnelle est une tâche qui vise à retrouver des documents à partir de la questioncourante de l’utilisateur ainsi que l’historique complet de la conversation. La plupart des méthodesantérieures sont basées sur une approche multi-étapes reposant sur une reformulation de la question.Cette étape de reformulation est critique, car elle peut conduire à un classement sous-optimal des do-cuments. D’autres approches ont essayé d’ordonner directement les documents, mais s’appuient pourla plupart sur un jeu de données contenant des pseudo-labels. Dans ce travail, nous proposons une tech-nique d’apprentissage à la fois “légère” et innovante pour un modèle contextualisé d’ordonnancementbasé sur SPLADE. En s’appuyant sur les représentations parcimonieuses de SPLADE, nous montronsque notre modèle, lorsqu’il est combiné avec le modèle de ré-ordonnancement T5Mono, obtient desrésultats qui sont compétitifs avec ceux obtenus par les participants des campagnes d’évaluation TRECCAsT 2020 et 2021. Le code source est disponible sur https://github.com/anonymous.

pdf bib abs
Recherche d’information conversationnelle
Laure Soulier | Pierre Erbacher | Thomas Gerald | Hanane Djeddal | Jian-Yun Nie | Philippe Preux
Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 6 : projets

Le projet ANR JCJC SESAMS s’intéresse depuis 2018 au paradigme désormais actuels des systèmes de recherche d’information conversationnels. L’objectif est de formaliser des modèles de recherche d’information capables de fluidifier les interactions avec les utilisateurs pendant une session de recherche. Nous abordons différents enjeux : la prise en compte d’une conversation en langage naturel en contexte d’une recherche d’information, la génération d’interactions permettant de clarifier les besoins en information, la génération de réponse en langage naturel, ainsi que l’apprentissage continu pour s’adapter aux nouveaux besoins des utilisateurs. Nous présenterons dans ce poster ces différents enjeux et les contributions associées. Nous pourrons également discuter les perspectives de recherche dans ce domaine suite au développement récents des gros modèles de langue.

2021

QuestEval is a reference-less metric used in text-to-text tasks, that compares the generated summaries directly to the source text, by automatically asking and answering questions. Its adaptation to Data-to-Text tasks is not straightforward, as it requires multimodal Question Generation and Answering systems on the considered tasks, which are seldom available. To this purpose, we propose a method to build synthetic multimodal corpora enabling to train multimodal components for a data-QuestEval metric. The resulting metric is reference-less and multimodal; it obtains state-of-the-art correlations with human judgment on the WebNLG and WikiBio benchmarks. We make data-QuestEval’s code and models available for reproducibility purpose, as part of the QuestEval project.

2020

pdf bib abs
PARENTing via Model-Agnostic Reinforcement Learning to Correct Pathological Behaviors in Data-to-Text Generation
Clement Rebuffel | Laure Soulier | Geoffrey Scoutheeten | Patrick Gallinari
Proceedings of the 13th International Conference on Natural Language Generation

In language generation models conditioned by structured data, the classical training via maximum likelihood almost always leads models to pick up on dataset divergence (i.e., hallucinations or omissions), and to incorporate them erroneously in their own generations at inference. In this work, we build on top of previous Reinforcement Learning based approaches and show that a model-agnostic framework relying on the recently introduced PARENT metric is efficient at reducing both hallucinations and omissions. Evaluations on the widely used WikiBIO and WebNLG benchmarks demonstrate the effectiveness of this framework compared to state-of-the-art models.

2019

pdf bib abs
Incorporating Visual Semantics into Sentence Representations within a Grounded Space
Patrick Bordes | Eloi Zablocki | Laure Soulier | Benjamin Piwowarski | Patrick Gallinari
Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)

Language grounding is an active field aiming at enriching textual representations with visual information. Generally, textual and visual elements are embedded in the same representation space, which implicitly assumes a one-to-one correspondence between modalities. This hypothesis does not hold when representing words, and becomes problematic when used to learn sentence representations — the focus of this paper — as a visual scene can be described by a wide variety of sentences. To overcome this limitation, we propose to transfer visual information to textual representations by learning an intermediate representation space: the grounded space. We further propose two new complementary objectives ensuring that (1) sentences associated with the same visual content are close in the grounded space and (2) similarities between related elements are preserved across modalities. We show that this model outperforms the previous state-of-the-art on classification and semantic relatedness tasks.

2018

pdf bib abs
A Reinforcement Learning-driven Translation Model for Search-Oriented Conversational Systems
Wafa Aissa | Laure Soulier | Ludovic Denoyer
Proceedings of the 2018 EMNLP Workshop SCAI: The 2nd International Workshop on Search-Oriented Conversational AI

Search-oriented conversational systems rely on information needs expressed in natural language (NL). We focus here on the understanding of NL expressions for building keyword-based queries. We propose a reinforcement-learning-driven translation model framework able to 1) learn the translation from NL expressions to queries in a supervised way, and, 2) to overcome the lack of large-scale dataset by framing the translation model as a word selection approach and injecting relevance feedback as a reward in the learning process. Experiments are carried out on two TREC datasets. We outline the effectiveness of our approach.

Venues

ijcnlp1

sigdial1

Fix author