Géométrie de l’auto-attention en classification : quand la géométrie remplace l’attention

Loïc Fosse, Duc Hau Nguyen, Pascale Sébillot, Guillaume Gravier


Abstract
Plusieurs études ont mis en évidence l’anisotropie des plongements issus d’un modèle BERT au sein d’un énoncé, c’est-à-dire leur concentration dans une direction donnée, notamment dans une tâche de classification. Dans cet article, nous cherchons à mieux comprendre ce phénomène et comment cette convergence se construit en analysant finement les propriétés géométriques des plongements, des clés et des valeurs dans une couche d’auto-attention. Nous montrons que la direction vers laquelle les plongements s’alignent caractérise la classe d’appartenance de l’énoncé. Nous étudions ensuite le fonctionnement intrinsèque de la couche d’auto-attention et les mécanismes en jeu entre clés et valeurs pour garantir la construction d’une représentation anisotrope. Cette construction se fait de manière progressive lorsque plusieurs couches sont empilés. Elle s’avère également robuste à des contraintes externes sur la distribution des poids d’attention, compensées par le modèle en jouant sur les valeurs et les clés.
Anthology ID:
2023.jeptalnrecital-long.11
Volume:
Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : travaux de recherche originaux -- articles longs
Month:
6
Year:
2023
Address:
Paris, France
Editors:
Christophe Servan, Anne Vilnat
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
137–150
Language:
French
URL:
https://aclanthology.org/2023.jeptalnrecital-long.11
DOI:
Bibkey:
Cite (ACL):
Loïc Fosse, Duc Hau Nguyen, Pascale Sébillot, and Guillaume Gravier. 2023. Géométrie de l’auto-attention en classification : quand la géométrie remplace l’attention. In Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : travaux de recherche originaux -- articles longs, pages 137–150, Paris, France. ATALA.
Cite (Informal):
Géométrie de l’auto-attention en classification : quand la géométrie remplace l’attention (Fosse et al., JEP/TALN/RECITAL 2023)
Copy Citation:
PDF:
https://aclanthology.org/2023.jeptalnrecital-long.11.pdf