@inproceedings{salin-2023-etat,
title = "{\'E}tat des lieux des Transformers Vision-Langage : Un {\'e}clairage sur les donn{\'e}es de pr{\'e}-entra{\^\i}nement",
author = "Salin, Emmanuelle",
editor = "Servan, Christophe and
Vilnat, Anne",
booktitle = "Actes de CORIA-TALN 2023. Actes de la 30e Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles (TALN), volume 3 : prises de position en TAL",
month = "6",
year = "2023",
address = "Paris, France",
publisher = "ATALA",
url = "https://aclanthology.org/2023.jeptalnrecital-statement.2",
pages = "14--29",
abstract = "Apr{\`e}s avoir {\'e}t{\'e} d{\'e}velopp{\'e}e en traitement automatique du langage, l{'}architecture Transformer s{'}est d{\'e}mocratis{\'e}e dans de nombreux domaines de l{'}apprentissage automatique. Elle a permis de surpasser l{'}{\'e}tat de l{'}art dans de nombreuses t{\^a}ches et a conduit {\`a} la cr{\'e}ation de tr{\`e}s grands jeux de donn{\'e}es afin d{'}am{\'e}liorer les performances des mod{\`e}les. En multimodalit{\'e} vision-langage, les r{\'e}sultats encourageants des Transformers favorisent la collecte de donn{\'e}es image-texte {\`a} tr{\`e}s grande {\'e}chelle. Cependant, il est difficile d{'}{\'e}valuer la qualit{\'e} de ces nouveaux jeux de donn{\'e}es, ainsi que leur influence sur la performance de ces mod{\`e}les, car notre compr{\'e}hension des Transformers vision-langage est encore limit{\'e}e. Nous explorons les {\'e}tudes du domaine pour mieux comprendre les processus de collecte des jeux de donn{\'e}es, les caract{\'e}ristiques de ces donn{\'e}es et leurs impacts sur les performances des mod{\`e}les.",
language = "French",
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="salin-2023-etat">
<titleInfo>
<title>État des lieux des Transformers Vision-Langage : Un éclairage sur les données de pré-entraînement</title>
</titleInfo>
<name type="personal">
<namePart type="given">Emmanuelle</namePart>
<namePart type="family">Salin</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2023-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">French</languageTerm>
<languageTerm type="code" authority="iso639-2b">fre</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 3 : prises de position en TAL</title>
</titleInfo>
<name type="personal">
<namePart type="given">Christophe</namePart>
<namePart type="family">Servan</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Anne</namePart>
<namePart type="family">Vilnat</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA</publisher>
<place>
<placeTerm type="text">Paris, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Après avoir été développée en traitement automatique du langage, l’architecture Transformer s’est démocratisée dans de nombreux domaines de l’apprentissage automatique. Elle a permis de surpasser l’état de l’art dans de nombreuses tâches et a conduit à la création de très grands jeux de données afin d’améliorer les performances des modèles. En multimodalité vision-langage, les résultats encourageants des Transformers favorisent la collecte de données image-texte à très grande échelle. Cependant, il est difficile d’évaluer la qualité de ces nouveaux jeux de données, ainsi que leur influence sur la performance de ces modèles, car notre compréhension des Transformers vision-langage est encore limitée. Nous explorons les études du domaine pour mieux comprendre les processus de collecte des jeux de données, les caractéristiques de ces données et leurs impacts sur les performances des modèles.</abstract>
<identifier type="citekey">salin-2023-etat</identifier>
<location>
<url>https://aclanthology.org/2023.jeptalnrecital-statement.2</url>
</location>
<part>
<date>2023-6</date>
<extent unit="page">
<start>14</start>
<end>29</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T État des lieux des Transformers Vision-Langage : Un éclairage sur les données de pré-entraînement
%A Salin, Emmanuelle
%Y Servan, Christophe
%Y Vilnat, Anne
%S Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 3 : prises de position en TAL
%D 2023
%8 June
%I ATALA
%C Paris, France
%G French
%F salin-2023-etat
%X Après avoir été développée en traitement automatique du langage, l’architecture Transformer s’est démocratisée dans de nombreux domaines de l’apprentissage automatique. Elle a permis de surpasser l’état de l’art dans de nombreuses tâches et a conduit à la création de très grands jeux de données afin d’améliorer les performances des modèles. En multimodalité vision-langage, les résultats encourageants des Transformers favorisent la collecte de données image-texte à très grande échelle. Cependant, il est difficile d’évaluer la qualité de ces nouveaux jeux de données, ainsi que leur influence sur la performance de ces modèles, car notre compréhension des Transformers vision-langage est encore limitée. Nous explorons les études du domaine pour mieux comprendre les processus de collecte des jeux de données, les caractéristiques de ces données et leurs impacts sur les performances des modèles.
%U https://aclanthology.org/2023.jeptalnrecital-statement.2
%P 14-29
Markdown (Informal)
[État des lieux des Transformers Vision-Langage : Un éclairage sur les données de pré-entraînement](https://aclanthology.org/2023.jeptalnrecital-statement.2) (Salin, JEP/TALN/RECITAL 2023)
ACL