Vincent Guigue - ACL Anthology

Vincent Guigue

2025

SCOPE : un cadre d’entrainement auto-supervisé pour améliorer la fidélité dans la génération conditionnelle de texte
Song Duong | Florian Le Bronnec | Alexandre Allauzen | Vincent Guigue | Alberto Lumbreras | Laure Soulier | Patrick Gallinari
Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : traductions d'articles publiés

Les modèles de langage (LLM) produisent souvent des hallucinations lors de la génération conditionnelle de texte, introduisant des informations non fidèles ou non ancrées dans le contexte. Ce phénomène est particulièrement problématique en résumé automatique et en génération texte-à-partirde-données, où les sorties doivent refléter précisément l’entrée. Nous proposons SCOPE, une méthode auto-supervisée innovante générant automatiquement des exemples non fidèles plausibles pour affiner les modèles par apprentissage par préférences. SCOPE pousse ainsi les modèles à préférer les sorties fidèles. Nous évaluons notre approche sur divers jeux de données de génération texte-à-partirde-données et de résumé. Simple à implémenter, notre méthode nettement les alternatives existantes selon des métriques automatiques et des évaluations humaines ainsi qu’avec GPT-4.

Clarification des Ambiguïtés : Sur le Rôle des Types d’Ambiguïté dans les Méthodes d’Amorçage pour la Génération de Clarifications
Anfu Tang | Laure Soulier | Vincent Guigue
Actes de la 20e Conférence en Recherche d’Information et Applications (CORIA)

En recherche d’information (RI), il est essentiel de fournir des clarifications appropriées pour concevoir un système de dialogue proactif et guider l’utilisateur. Grâce au développement des grands modèles de langage (LLMs), des études récentes explorent des méthodes d’amorçage pour générer des clarifications à l’aide de chaîne de raisonnement (Chain of Thought, CoT). Cependant, l’amorçage CoT ne permet pas de distinguer les caractéristiques des différents besoins en information, impactant la résolution des ambiguïtés. Dans ce travail, nous cherchons à modéliser et intégrer les ambiguïtés liées au besoin en information dans le processus de génération de clarifications. Nous étudions l’impact des schémas d’amorçage en proposant Ambiguity Type-Chain of Thought (AT-CoT), qui impose à CoT de prédire d’abord les types d’ambiguïté, puis de générer les clarifications correspondantes. Des expériences sont menées sur divers jeux de données afin de comparer AT-CoT à plusieurs modèles de référence. Nous réalisons également des simulations utilisateur pour une évaluation extrinsèque.

Prédiction des préférences et génération de revue personnalisée basées sur les aspects et attention
Ben Kabongo | Vincent Guigue | Pirmin Lemberger
Actes de la 20e Conférence en Recherche d’Information et Applications (CORIA)

Le filtrage collaboratif alimente de nombreux systèmes de recommandation performants, mais il peine à saisir les interactions fines entre utilisateurs et articles et à fournir des explications claires. Face à la demande croissante de transparence, la génération d’explications textuelles via des modèles de langage est devenue un axe de recherche majeur. Nous proposons AURA, un modèle multi-tâches combinant prédiction de notes et génération de revues personnalisées. AURA apprend simultanément des représentations globales et spécifiques aux aspects en optimisant les notes globales, les notes par aspect et la génération de revues, avec une attention personnalisée. Ces représentations produisent une invite personnalisée qui guide un modèle de langage pour générer la revue finale. Implémenté avec le modèle T5 pré-entraîné et une stratégie de réglage par invite, AURA a été testé sur TripAdvisor et RateBeer. Les résultats montrent qu’il surpasse nettement les modèles de référence, surtout en génération de revues, renforçant ainsi la transparence des recommandations et la satisfaction des utilisateurs.

Seval-ex : Un paradigme basé sur les phrases atomiques pour une évaluation explicable de la qualité des résumés
Tanguy Herserant | Vincent Guigue
Actes de la 20e Conférence en Recherche d’Information et Applications (CORIA)

L’évaluation de la qualité des résumés de texte demeure un défi critique en Traitement Automatique du Langage Naturel. Les approches actuelles font face à un compromis entre performance et interprétabilité. Nous présentons SEval-Ex, un framework qui comble cette lacune en décomposant l’évaluation des résumés en phrases atomiques, permettant à la fois une haute performance et une explicabilité. SEval-Ex emploie un pipeline en deux étapes : extraction des phrases atomiques à partir du texte source et du résumé via un LLM, puis mise en correspondance de ces phrases. Contrairement aux approches existantes qui ne fournissent que des scores globaux, notre méthode génère un parcours détaillé des décisions grâce à un alignement entre les phrases. Les expériences sur SummEval démontrent que SEval-Ex atteint des performances état de l’art avec une corrélation de 0.580 sur la cohérence avec les jugements humains, surpassant GPT-4 (0.521) tout en maintenant l’interprétabilité et la robustesse contre l’hallucination.

Transfert de modèles de langue pour la classification rhétorique des citations à travers les disciplines
Anne-Sophie Foussat | Vincent Guigue | Nicolas Sauvion | Robert Bossy | Claire Nédellec
Actes de la 20e Conférence en Recherche d’Information et Applications (CORIA)

La classification automatique des fonctions rhétoriques des citations contribue à l’étude des stratégies discursives d’un auteur lorsqu’il cite, et plus généralement, de son intention. Dans l’objectif d’estimer la fiabilité des découvertes citées en écologie, cet article analyse les capacités de transfert des modèles de langue affinés en linguistique computationnelle pour cette tâche, en les comparant aux méthodes par amorçage (prompting). Nous introduisons PD100cit, un nouveau corpus annoté, ainsi qu’un guide d’annotation, afin d’explorer la typologie rhétorique des citations relatives aux interactions biologiques. Nous explorons également la sensibilité des modèles aux longueurs des contextes des passages de citations. Nos résultats montrent de bonnes performances des modèles de langue transférés en écologie et l’intérêt de réviser la typologie pour évaluer la fiabilité des découvertes de la linguistique computationnelle à l’écologie.

AllSummedUp : un framework open-source pour comparer les métriques d’évaluation de résumé
Tanguy Herserant | Vincent Guigue
Actes de l'atelier Évaluation des modèles génératifs (LLM) et challenge 2025 (EvalLLM)

Cet article examine les défis de reproductibilité dans l’évaluation automatique des résumés de textes. À partir d’expériences menées sur six métriques représentatives allant de méthodes classiques comme ROUGE à des approches récentes basées sur les LLM (G-Eval, SEval-Ex), nous mettons en évidence des écarts notables entre les performances rapportées dans la littérature et celles observées dans notre cadre expérimental. Nous proposons un framework unifié et open-source, appliqué au jeu de données SummEval et ouvert à de futurs jeux de données, facilitant une comparaison équitable et transparente des métriques. Nos résultats révèlent un compromis structurel : les métriques les mieux alignées avec les jugements humains sont aussi les plus coûteuses en calculs et les moins stables. Au-delà de cette analyse comparative, notre étude met en garde contre l’utilisation croissante des LLM dans l’évaluation, en soulignant leur nature stochastique, leur dépendance technique et leur faible reproductibilité.

2024

LOCOST: State-Space Models for Long Document Abstractive Summarization
Florian Le Bronnec | Song Duong | Mathieu Ravaut | Alexandre Allauzen | Nancy Chen | Vincent Guigue | Alberto Lumbreras | Laure Soulier | Patrick Gallinari
Proceedings of the 18th Conference of the European Chapter of the Association for Computational Linguistics (Volume 1: Long Papers)

State-space models are a low-complexity alternative to transformers for encoding long sequences and capturing long-term dependencies. We propose LOCOST: an encoder-decoder architecture based on state-space models for conditional text generation with long context inputs. With a computational complexity of 𝒪(L log L), this architecture can handle significantly longer sequences than state-of-the-art models that are based on sparse attention patterns. We evaluate our model on a series of long document abstractive summarization tasks. The model reaches a performance level that is 93-96% comparable to the top-performing sparse transformers of the same size while saving up to 50% memory during training and up to 87% during inference. Additionally, LOCOST effectively handles input texts exceeding 600K tokens at inference time, setting new state-of-the-art results on full-book summarization and opening new perspectives for long input processing.

LOCOST: Modèles Espace-État pour le Résumé Abstractif de Documents Longs
Florian Le Bronnec | Song Duong | Alexandre Allauzen | Vincent Guigue | Alberto Lumbreras | Laure Soulier | Patrick Gallinari
Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 2 : traductions d'articles publiès

Les modèles espace-état constituent une alternative peu coûteuse en termes de complexité de calcul aux transformeurs pour le codage de longues séquences et la capture de longues dépendances. Nous proposons LOCOST: une architecture encodeur-décodeur basée sur des modèles espace-état pour la génération de textes conditionnels avec de longues entrées contextuelles. Avec une complexité de calcul de O(L log L), cette architecture peut traiter des séquences beaucoup plus longues que les modèles de référence qui sont basés sur des modèles d’attention parcimonieux. Nous évaluons notre modèle sur une série de tâches de résumé abstractif de longs documents. Le modèle atteint un niveau de performance qui est 93-96 comparable aux transformeurs parcimonieux les plus performants de la même taille tout en économisant jusqu’à 50 de mémoire pendant l’apprentissage et jusqu’à 87 pendant l’inférence. En outre, LOCOST traite efficacement les entrées dépassant 600K tokens au moment de l’inférence, établissant de nouveaux résultats de référence sur le résumé de livre complet et ouvrant de nouvelles perspectives pour le traitement des entrées longues.

2023

Improving generalization in large langue model by learning prefix subspaces
Louis Falissard | Vincent Guigue | Laure Soulier
Findings of the Association for Computational Linguistics: EMNLP 2023

This article focuses on large language models (LLMs) fine-tuning in the scarce data regime (also known as “few-shot learning setting”). We propose a method to increase the generalization capabilities of LLMs based on neural network subspaces. This optimization method, recently introduced in computer vision, aims to improve model generalization by identifying wider local optima through the joint optimization of an entire simplex of models in parameter space. Although this property would be highly beneficial in the context of training large language models in the “few-shot learning” setting, its adaptation to massive, pretrained transformers poses some challenges. First, their considerable number of parameters make it difficult to train several model jointly, and second, their deterministic parameter initialisation schemes make them unfit to the subspace method as originaly proposed. We show in this paper that its application to “Parameter Efficient Fine-Tuning” (PEFT) methods, however, is relatively natural, and we propose to apply it to prefix-tuning, by learning entire simplexes of continous prefixes. We test our method on a variant of the GLUE benchmark adapted to the few-shot learning setting, and show that both our contributions (learning prefix simplexes, and non-deterministic validation metric inference) jointly lead to a gain in average performances compared to state of the art methods.

Apprentissage de sous-espaces de préfixes
Louis Falissard | Vincent Guigue | Laure Soulier
Actes de CORIA-TALN 2023. Actes de la 18e Conférence en Recherche d'Information et Applications (CORIA)

Cet article propose une nouvelle façon d’ajuster des modèles de langue en “Few-shot learning” se basant sur une méthode d’optimisation récemment introduite en vision informatique, l’apprentissage de sous-espaces de modèles. Cette méthode, permettant de trouver non pas un point minimum local de la fonction coût dans l’espace des paramètres du modèle, mais tout un simplexe associé à des valeurs basses, présente typiquement des capacités de généralisation supérieures aux solutions obtenues par ajustement traditionnel. L’adaptation de cette méthode aux gros modèles de langue n’est pas triviale mais son application aux méthodes d’ajustement dites “Parameter Efficient” est quant à elle relativement naturelle. On propose de plus une façon innovante d’utiliser le simplexe de solution étudié afin de revisiter la notion de guidage de l’ajustement d’un modèle par l’inférence d’une métrique de validation, problématique d’actualité en “few-shot learning”. On montre finalement que ces différentes contributions centrées autour de l’ajustement de sous-espaces de modèles est empiriquement associée à un gain considérable en performances de généralisation sur les tâches de compréhension du langage du benchmark GLUE, dans un contexte de “few-shot learning”.

Extraction d’entités nommées à partir de descriptions d’espèces
Maya Sahraoui | Vincent Guigue | Régine Vignes-Lebbe | Marc Pignal
Actes de CORIA-TALN 2023. Actes de la 18e Conférence en Recherche d'Information et Applications (CORIA)

Les descriptions d’espèces contiennent des informations importantes sur les caractéristiques morphologiques des espèces, mais l’extraction de connaissances structurées à partir de ces descriptions est souvent chronophage. Nous proposons un modèle texte-graphe adapté aux descriptions d’espèces en utilisant la reconnaissance d’entités nommées (NER) faiblement supervisée. Après avoir extrait les entités nommées, nous reconstruisons les triplets en utilisant des règles de dépendance pour créer le graphe. Notre méthode permet de comparer différentes espèces sur la base de caractères morphologiques et de relier différentes sources de données. Les résultats de notre étude se concentrent sur notre modèle NER et démontrent qu’il est plus performant que les modèles de référence et qu’il constitue un outil précieux pour la communauté de l’écologie et de la biodiversité.

Intégration du raisonnement numérique dans les modèles de langue : État de l’art et direction de recherche
Sarah Abchiche | Lynda Said Lhadj | Vincent Guigue | Laure Soulier
Actes de CORIA-TALN 2023. Actes de la 18e Conférence en Recherche d'Information et Applications (CORIA)

Ces dernières années, les modèles de langue ont connu une évolution galopante grâce à l’augmentation de la puissance de calcul qui a rendu possible l’utilisation des réseaux de neurones. Parallèlement, l’intégration du raisonnement numérique dans les modèles de langue a suscité un intérêt grandissant. Pourtant, bien que l’entraînement des modèles de langue sur des données numériques soit devenu un paradigme courant, les modèles actuels ne parviennent pas à effectuer des calculs de manière satisfaisante. Pour y remédier, une solution est d’entraîner les modèles de langue à utiliser des outils externes tels qu’une calculatrice ou un “runtime” de code python pour effectuer le raisonnement numérique. L’objectif de ce papier est double, dans un premier temps nous passons en revue les travaux de l’état de l’art sur le raisonnement numérique dans les modèles de langue et dans un second temps nous discutons des différentes perspectives de recherche pour augmenter les compétences numériques des modèles.

2021

Separating Retention from Extraction in the Evaluation of End-to-end Relation Extraction
Bruno Taillé | Vincent Guigue | Geoffrey Scoutheeten | Patrick Gallinari
Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing

State-of-the-art NLP models can adopt shallow heuristics that limit their generalization capability (McCoy et al., 2019). Such heuristics include lexical overlap with the training set in Named-Entity Recognition (Taille et al., 2020) and Event or Type heuristics in Relation Extraction (Rosenman et al., 2020). In the more realistic end-to-end RE setting, we can expect yet another heuristic: the mere retention of training relation triples. In this paper we propose two experiments confirming that retention of known facts is a key factor of performance on standard benchmarks. Furthermore, one experiment suggests that a pipeline model able to use intermediate type representations is less prone to over-rely on retention.

2020

Let’s Stop Incorrect Comparisons in End-to-end Relation Extraction!
Bruno Taillé | Vincent Guigue | Geoffrey Scoutheeten | Patrick Gallinari
Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)

Despite efforts to distinguish three different evaluation setups (Bekoulis et al., 2018), numerous end-to-end Relation Extraction (RE) articles present unreliable performance comparison to previous work. In this paper, we first identify several patterns of invalid comparisons in published papers and describe them to avoid their propagation. We then propose a small empirical study to quantify the most common mistake’s impact and evaluate it leads to overestimating the final RE performance by around 5% on ACE05. We also seize this opportunity to study the unexplored ablations of two recent developments: the use of language model pretraining (specifically BERT) and span-level NER. This meta-analysis emphasizes the need for rigor in the report of both the evaluation setting and the dataset statistics. We finally call for unifying the evaluation setting in end-to-end RE.

2019

Unsupervised Information Extraction: Regularizing Discriminative Approaches with Relation Distribution Losses
Étienne Simon | Vincent Guigue | Benjamin Piwowarski
Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics

Unsupervised relation extraction aims at extracting relations between entities in text. Previous unsupervised approaches are either generative or discriminative. In a supervised setting, discriminative approaches, such as deep neural network classifiers, have demonstrated substantial improvement. However, these models are hard to train without supervision, and the currently proposed solutions are unstable. To overcome this limitation, we introduce a skewness loss which encourages the classifier to predict a relation with confidence given a sentence, and a distribution distance loss enforcing that all relations are predicted in average. These losses improve the performance of discriminative based models, and enable us to train deep neural networks satisfactorily, surpassing current state of the art on three different datasets.

2018

DEFT 2018: Attention sélective pour classification de microblogs (DEFT 2018 : Selective Attention for Microblogging Classification )
Charles-Emmanuel Dias | Clara de Forsan de Gainon Gabriac | Patrick Gallinari | Vincent Guigue
Actes de la Conférence TALN. Volume 2 - Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT

Dans le cadre de l’atelier DEFT 2018 nous nous sommes intéressés à la classification de microblogs (ici, des tweets) rédigés en français. Ici, nous proposons une méthode se basant sur un réseau hiérarchique de neurones récurrent avec attention. La spécificité de notre architecture est de prendre en compte –via un mechanisme d’attention et de portes– les hashtags et les mentions directes (e.g., @user), spécifiques aux microblogs. Notre modèle a obtenu de très bon résultats sur la première tâche et des résultats compétitifs sur la seconde.