Adrien Guille

2025

Alignements entre attention et sémantique dans des modèles de langues pré-entraînés
Frédéric Charpentier | Jairo Cugliari Duhalde | Adrien Guille
Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux

Les AMR (Abstract Meaning Representation) sont une structure destinée à coder la sémantique de phrases sous forme de graphes. Les mots des phrases correspondantes peuvent être alignés avec les sommets de l’AMR, de telle sorte que les relations sémantiques entre les mots puissent être mises en correspondance avec les rôles sémantiques lus sur les arcs de l’AMR. Le mécanisme d’attention d’un modèle de langue (ML) peut être modélisé comme le calcul de vecteurs descripteurs pour les arêtes d’un graphe complet dont les sommets sont les mots d’une phrase ou d’un paragraphe entier. Dans cet article, nous projetons les graphes AMR sur les graphes d’attention et concevons des méthodes supervisées pour détecter les relations sémantiques étiquetant les arêtes à partir des poids d’attention. Pour cela, nous mettons en œuvre des méthodes opérant soit sur les arêtes une à une, soit sur le graphe d’attention entier afin de comparer les capacités sémantiques de ML pré-entraînés. Il ressort de cette étude que l’encodeur bidirectionnel RoBERTA-base est meilleur que les décodeurs causaux, jusqu’à Llama 3 8B.

pdf bib abs

Étude des déterminants impactant la qualité de l’information géographique chez les LLMs : famille, taille, langue, quantization et fine-tuning
Rémy Decoupes | Adrien Guille
Actes de l'atelier Évaluation des modèles génératifs (LLM) et challenge 2025 (EvalLLM)

Nous analysons l’impact de plusieurs facteurs d’optimisation sur la qualité des informations géographiques contenues dans des grands modèles de langue (LLMs) : famille, taille, «quantization», «instruction fine-tuning», prompt et langue. Nous évaluons également la qualité des représentations internes, en particulier pour les modèles génératifs ayant des difficultés à suivre les instructions. Nos résultats montrent que la quantization dégrade nettement les performances, tandis que les versions conversationnelles («Instruct») perdent généralement en qualité d’informations par rapport à leur version «base», à l’exception des modèles de petite taille. L’ensemble de notre protocole d’évaluation est entièrement reproductible et disponible en accès libre.

2024

pdf bib abs

Exploring Semantics in Pretrained Language Model Attention
Frédéric Charpentier | Jairo Cugliari | Adrien Guille
Proceedings of the 13th Joint Conference on Lexical and Computational Semantics (*SEM 2024)

Abstract Meaning Representations (AMRs) encode the semantics of sentences in the form of graphs. Vertices represent instances of concepts, and labeled edges represent semantic relations between those instances. Language models (LMs) operate by computing weights of edges of per layer complete graphs whose vertices are words in a sentence or a whole paragraph. In this work, we investigate the ability of the attention heads of two LMs, RoBERTa and GPT2, to detect the semantic relations encoded in an AMR. This is an attempt to show semantic capabilities of those models without finetuning. To do so, we apply both unsupervised and supervised learning techniques.

Co-authors

Venues

Fix author