Loïc Fosse

Also published as: Loic Fosse


2024

pdf bib
Géométrie des vecteurs de tâches pour l’association et la combinaison de modèles
Loic Fosse
Actes de la 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues

Les adaptations de rang faible (LoRa) sont devenues un standard pour adapter des modèles à un faible coût. Elles sont de plus en plus utilisées que ce soit en traitement du langage ou des images. Plusieurs études utilisent ces adaptations et cherchent à les combiner {}it a posteriori de manière à enrichir de manière additive les propriétés d’un modèle. Ces combinaisons suggèrent alors que nous pouvons associer les modèles dans l’espace des paramètres et que nous pouvons donner un sens à cela. Cette propriété n’est que très peu vérifiée dans la pratique et nous proposons ici plusieurs métriques visant à caractériser l’association entre les modèles dans l’espace des paramètres. Nous montrons finalement que nous pouvons corréler ces métriques avec les pertes de performance des modèles lorsque nous réalisons leurs combinaisons.

2023

pdf bib
Géométrie de l’auto-attention en classification : quand la géométrie remplace l’attention
Loïc Fosse | Duc Hau Nguyen | Pascale Sébillot | Guillaume Gravier
Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : travaux de recherche originaux -- articles longs

Plusieurs études ont mis en évidence l’anisotropie des plongements issus d’un modèle BERT au sein d’un énoncé, c’est-à-dire leur concentration dans une direction donnée, notamment dans une tâche de classification. Dans cet article, nous cherchons à mieux comprendre ce phénomène et comment cette convergence se construit en analysant finement les propriétés géométriques des plongements, des clés et des valeurs dans une couche d’auto-attention. Nous montrons que la direction vers laquelle les plongements s’alignent caractérise la classe d’appartenance de l’énoncé. Nous étudions ensuite le fonctionnement intrinsèque de la couche d’auto-attention et les mécanismes en jeu entre clés et valeurs pour garantir la construction d’une représentation anisotrope. Cette construction se fait de manière progressive lorsque plusieurs couches sont empilés. Elle s’avère également robuste à des contraintes externes sur la distribution des poids d’attention, compensées par le modèle en jouant sur les valeurs et les clés.

pdf bib
Darbarer @ AutoMin2023: Transcription simplification for concise minute generation from multi-party conversations
Ismaël Rousseau | Loïc Fosse | Youness Dkhissi | Geraldine Damnati | Gwénolé Lecorvé
Proceedings of the 16th International Natural Language Generation Conference: Generation Challenges

This document reports the approach of our team Darbarer for the main task (Task A) of the AutoMin 2023 challenge. Our system is composed of four main modules. The first module relies on a text simplification model aiming at standardizing the utterances of the conversation and compressing the input in order to focus on informative content. The second module handles summarization by employing a straightforward segmentation strategy and a fine-tuned BART-based generative model. Then a titling module has been trained in order to propose a short description of each summarized block. Lastly, we apply a post-processing step aimed at enhancing readability through specific formatting rules. Our contributions lie in the first, third and last steps. Our system generates precise and concise minutes. We provide a detailed description of our modules, discuss the difficulty of evaluating their impact and propose an analysis of observed errors in our generated minutes.

2022

pdf bib
Une étude statistique des plongements dans les modèles transformers pour le français (An empirical statistical study of embeddings in French transformers)
Loïc Fosse | Duc-Hau Nguyen | Pascale Sébillot | Guillaume Gravier
Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale

Nous étudions les propriétés statistiques des plongements dans les modèles transformers pour le français. Nous nous appuyons sur une analyse de la variance, des similarités cosinus intra-phrase et du rang effectif des plongements aux différents niveaux d’un transformer, pour des modèles pré-entraînés et des modèles adaptés à la classification de textes. Nous montrons que les modèles FlauBERT et CamemBERT pré-entraînés ont des comportements très différents même si les deux ont une tendance à générer des représentations anisotropiques, c’est-à-dire se concentrant dans un cône au sein de l’espace des plongements, comme observé pour l’anglais. L’adaptation à la classification de textes modifie le comportement des modèles, notamment dans les dernières couches, et procure une tendance forte à l’alignement des plongements, réduisant également la dimension effective de l’espace au final. Nous mettons également en évidence un lien entre convergence des plongements au sein d’une phrase et classification de texte, lien dont la nature reste difficile à appréhender.