@inproceedings{fosse-etal-2023-geometrie,
title = "G{\'e}om{\'e}trie de l{'}auto-attention en classification : quand la g{\'e}om{\'e}trie remplace l{'}attention",
author = {Fosse, Lo{\"\i}c and
Nguyen, Duc Hau and
S{\'e}billot, Pascale and
Gravier, Guillaume},
editor = "Servan, Christophe and
Vilnat, Anne",
booktitle = "Actes de CORIA-TALN 2023. Actes de la 30e Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : travaux de recherche originaux -- articles longs",
month = "6",
year = "2023",
address = "Paris, France",
publisher = "ATALA",
url = "https://aclanthology.org/2023.jeptalnrecital-long.11",
pages = "137--150",
abstract = "Plusieurs {\'e}tudes ont mis en {\'e}vidence l{'}anisotropie des plongements issus d{'}un mod{\`e}le BERT au sein d{'}un {\'e}nonc{\'e}, c{'}est-{\`a}-dire leur concentration dans une direction donn{\'e}e, notamment dans une t{\^a}che de classification. Dans cet article, nous cherchons {\`a} mieux comprendre ce ph{\'e}nom{\`e}ne et comment cette convergence se construit en analysant finement les propri{\'e}t{\'e}s g{\'e}om{\'e}triques des plongements, des cl{\'e}s et des valeurs dans une couche d{'}auto-attention. Nous montrons que la direction vers laquelle les plongements s{'}alignent caract{\'e}rise la classe d{'}appartenance de l{'}{\'e}nonc{\'e}. Nous {\'e}tudions ensuite le fonctionnement intrins{\`e}que de la couche d{'}auto-attention et les m{\'e}canismes en jeu entre cl{\'e}s et valeurs pour garantir la construction d{'}une repr{\'e}sentation anisotrope. Cette construction se fait de mani{\`e}re progressive lorsque plusieurs couches sont empil{\'e}s. Elle s{'}av{\`e}re {\'e}galement robuste {\`a} des contraintes externes sur la distribution des poids d{'}attention, compens{\'e}es par le mod{\`e}le en jouant sur les valeurs et les cl{\'e}s.",
language = "French",
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="fosse-etal-2023-geometrie">
<titleInfo>
<title>Géométrie de l’auto-attention en classification : quand la géométrie remplace l’attention</title>
</titleInfo>
<name type="personal">
<namePart type="given">Loïc</namePart>
<namePart type="family">Fosse</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Duc</namePart>
<namePart type="given">Hau</namePart>
<namePart type="family">Nguyen</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Pascale</namePart>
<namePart type="family">Sébillot</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Guillaume</namePart>
<namePart type="family">Gravier</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2023-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">French</languageTerm>
<languageTerm type="code" authority="iso639-2b">fre</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : travaux de recherche originaux – articles longs</title>
</titleInfo>
<name type="personal">
<namePart type="given">Christophe</namePart>
<namePart type="family">Servan</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Anne</namePart>
<namePart type="family">Vilnat</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA</publisher>
<place>
<placeTerm type="text">Paris, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Plusieurs études ont mis en évidence l’anisotropie des plongements issus d’un modèle BERT au sein d’un énoncé, c’est-à-dire leur concentration dans une direction donnée, notamment dans une tâche de classification. Dans cet article, nous cherchons à mieux comprendre ce phénomène et comment cette convergence se construit en analysant finement les propriétés géométriques des plongements, des clés et des valeurs dans une couche d’auto-attention. Nous montrons que la direction vers laquelle les plongements s’alignent caractérise la classe d’appartenance de l’énoncé. Nous étudions ensuite le fonctionnement intrinsèque de la couche d’auto-attention et les mécanismes en jeu entre clés et valeurs pour garantir la construction d’une représentation anisotrope. Cette construction se fait de manière progressive lorsque plusieurs couches sont empilés. Elle s’avère également robuste à des contraintes externes sur la distribution des poids d’attention, compensées par le modèle en jouant sur les valeurs et les clés.</abstract>
<identifier type="citekey">fosse-etal-2023-geometrie</identifier>
<location>
<url>https://aclanthology.org/2023.jeptalnrecital-long.11</url>
</location>
<part>
<date>2023-6</date>
<extent unit="page">
<start>137</start>
<end>150</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Géométrie de l’auto-attention en classification : quand la géométrie remplace l’attention
%A Fosse, Loïc
%A Nguyen, Duc Hau
%A Sébillot, Pascale
%A Gravier, Guillaume
%Y Servan, Christophe
%Y Vilnat, Anne
%S Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : travaux de recherche originaux – articles longs
%D 2023
%8 June
%I ATALA
%C Paris, France
%G French
%F fosse-etal-2023-geometrie
%X Plusieurs études ont mis en évidence l’anisotropie des plongements issus d’un modèle BERT au sein d’un énoncé, c’est-à-dire leur concentration dans une direction donnée, notamment dans une tâche de classification. Dans cet article, nous cherchons à mieux comprendre ce phénomène et comment cette convergence se construit en analysant finement les propriétés géométriques des plongements, des clés et des valeurs dans une couche d’auto-attention. Nous montrons que la direction vers laquelle les plongements s’alignent caractérise la classe d’appartenance de l’énoncé. Nous étudions ensuite le fonctionnement intrinsèque de la couche d’auto-attention et les mécanismes en jeu entre clés et valeurs pour garantir la construction d’une représentation anisotrope. Cette construction se fait de manière progressive lorsque plusieurs couches sont empilés. Elle s’avère également robuste à des contraintes externes sur la distribution des poids d’attention, compensées par le modèle en jouant sur les valeurs et les clés.
%U https://aclanthology.org/2023.jeptalnrecital-long.11
%P 137-150
Markdown (Informal)
[Géométrie de l’auto-attention en classification : quand la géométrie remplace l’attention](https://aclanthology.org/2023.jeptalnrecital-long.11) (Fosse et al., JEP/TALN/RECITAL 2023)
ACL