État des lieux des Transformers Vision-Langage : Un éclairage sur les données de pré-entraînement

Emmanuelle Salin


Abstract
Après avoir été développée en traitement automatique du langage, l’architecture Transformer s’est démocratisée dans de nombreux domaines de l’apprentissage automatique. Elle a permis de surpasser l’état de l’art dans de nombreuses tâches et a conduit à la création de très grands jeux de données afin d’améliorer les performances des modèles. En multimodalité vision-langage, les résultats encourageants des Transformers favorisent la collecte de données image-texte à très grande échelle. Cependant, il est difficile d’évaluer la qualité de ces nouveaux jeux de données, ainsi que leur influence sur la performance de ces modèles, car notre compréhension des Transformers vision-langage est encore limitée. Nous explorons les études du domaine pour mieux comprendre les processus de collecte des jeux de données, les caractéristiques de ces données et leurs impacts sur les performances des modèles.
Anthology ID:
2023.jeptalnrecital-statement.2
Volume:
Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 3 : prises de position en TAL
Month:
6
Year:
2023
Address:
Paris, France
Editors:
Christophe Servan, Anne Vilnat
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
14–29
Language:
French
URL:
https://aclanthology.org/2023.jeptalnrecital-statement.2
DOI:
Bibkey:
Cite (ACL):
Emmanuelle Salin. 2023. État des lieux des Transformers Vision-Langage : Un éclairage sur les données de pré-entraînement. In Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 3 : prises de position en TAL, pages 14–29, Paris, France. ATALA.
Cite (Informal):
État des lieux des Transformers Vision-Langage : Un éclairage sur les données de pré-entraînement (Salin, JEP/TALN/RECITAL 2023)
Copy Citation:
PDF:
https://aclanthology.org/2023.jeptalnrecital-statement.2.pdf