@inproceedings{whetten-etal-2024-implementation,
title = "Impl{\'e}mentation ouverte et {\'e}tude de {BEST}-{RQ} pour le traitement de la parole",
author = "Whetten, Ryan and
Parcollet, Titouan and
Dinarelli, Marco and
Est{\`e}ve, Yannick",
editor = "Balaguer, Mathieu and
Bendahman, Nihed and
Ho-dac, Lydia-Mai and
Mauclair, Julie and
G Moreno, Jose and
Pinquier, Julien",
booktitle = "Actes des 35{\`e}mes Journ{\'e}es d'{\'E}tudes sur la Parole",
month = "7",
year = "2024",
address = "Toulouse, France",
publisher = "ATALA and AFPC",
url = "https://aclanthology.org/2024.jeptalnrecital-jep.42",
pages = "412--420",
abstract = "L{'}apprentissage auto-supervis{\'e} (SSL) a fait ses preuves pour le traitement automatique de la parole mais est g{\'e}n{\'e}ralement tr{\`e}s consommateur de donn{\'e}es, de m{\'e}moire et de ressources mat{\'e}rielles. L{'}approche BEST-RQ (BERT-based Speech pre-Training with Random-projection Quantizer) est une approche SSL performante en reconnaissance automatique de la parole (RAP), plus efficiente que wav2vec 2.0. L{'}article original de Google qui introduit BEST-RQ manque de d{\'e}tails, comme le nombre d{'}heures de GPU/TPU utilis{\'e}es pour le pr{\'e}-entra{\^\i}nement et il n{'}existe pas d{'}impl{\'e}mentation open-source facile {\`a} utiliser. De plus, BEST-RQ n{'}a pas {\'e}t{\'e} {\'e}valu{\'e} sur d{'}autres t{\^a}ches que la RAP et la traduction de la parole. Dans cet article, nous d{\'e}crivons notre impl{\'e}mentation open-source de BEST-RQ et r{\'e}alisons une premi{\`e}re {\'e}tude en le comparant {\`a} wav2vec 2.0 sur quatre t{\^a}ches. Nous montrons que BERT-RQ peut atteindre des performances similaires {\`a} celles de wav2vec 2.0 tout en r{\'e}duisant le temps d{'}apprentissage d{'}un facteur sup{\'e}rieur {\`a} deux.",
language = "French",
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="whetten-etal-2024-implementation">
<titleInfo>
<title>Implémentation ouverte et étude de BEST-RQ pour le traitement de la parole</title>
</titleInfo>
<name type="personal">
<namePart type="given">Ryan</namePart>
<namePart type="family">Whetten</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Titouan</namePart>
<namePart type="family">Parcollet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Marco</namePart>
<namePart type="family">Dinarelli</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Yannick</namePart>
<namePart type="family">Estève</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2024-07</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">French</languageTerm>
<languageTerm type="code" authority="iso639-2b">fre</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes des 35èmes Journées d’Études sur la Parole</title>
</titleInfo>
<name type="personal">
<namePart type="given">Mathieu</namePart>
<namePart type="family">Balaguer</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Nihed</namePart>
<namePart type="family">Bendahman</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Lydia-Mai</namePart>
<namePart type="family">Ho-dac</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Julie</namePart>
<namePart type="family">Mauclair</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Jose</namePart>
<namePart type="family">G Moreno</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Julien</namePart>
<namePart type="family">Pinquier</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA and AFPC</publisher>
<place>
<placeTerm type="text">Toulouse, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>L’apprentissage auto-supervisé (SSL) a fait ses preuves pour le traitement automatique de la parole mais est généralement très consommateur de données, de mémoire et de ressources matérielles. L’approche BEST-RQ (BERT-based Speech pre-Training with Random-projection Quantizer) est une approche SSL performante en reconnaissance automatique de la parole (RAP), plus efficiente que wav2vec 2.0. L’article original de Google qui introduit BEST-RQ manque de détails, comme le nombre d’heures de GPU/TPU utilisées pour le pré-entraînement et il n’existe pas d’implémentation open-source facile à utiliser. De plus, BEST-RQ n’a pas été évalué sur d’autres tâches que la RAP et la traduction de la parole. Dans cet article, nous décrivons notre implémentation open-source de BEST-RQ et réalisons une première étude en le comparant à wav2vec 2.0 sur quatre tâches. Nous montrons que BERT-RQ peut atteindre des performances similaires à celles de wav2vec 2.0 tout en réduisant le temps d’apprentissage d’un facteur supérieur à deux.</abstract>
<identifier type="citekey">whetten-etal-2024-implementation</identifier>
<location>
<url>https://aclanthology.org/2024.jeptalnrecital-jep.42</url>
</location>
<part>
<date>2024-7</date>
<extent unit="page">
<start>412</start>
<end>420</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Implémentation ouverte et étude de BEST-RQ pour le traitement de la parole
%A Whetten, Ryan
%A Parcollet, Titouan
%A Dinarelli, Marco
%A Estève, Yannick
%Y Balaguer, Mathieu
%Y Bendahman, Nihed
%Y Ho-dac, Lydia-Mai
%Y Mauclair, Julie
%Y G Moreno, Jose
%Y Pinquier, Julien
%S Actes des 35èmes Journées d’Études sur la Parole
%D 2024
%8 July
%I ATALA and AFPC
%C Toulouse, France
%G French
%F whetten-etal-2024-implementation
%X L’apprentissage auto-supervisé (SSL) a fait ses preuves pour le traitement automatique de la parole mais est généralement très consommateur de données, de mémoire et de ressources matérielles. L’approche BEST-RQ (BERT-based Speech pre-Training with Random-projection Quantizer) est une approche SSL performante en reconnaissance automatique de la parole (RAP), plus efficiente que wav2vec 2.0. L’article original de Google qui introduit BEST-RQ manque de détails, comme le nombre d’heures de GPU/TPU utilisées pour le pré-entraînement et il n’existe pas d’implémentation open-source facile à utiliser. De plus, BEST-RQ n’a pas été évalué sur d’autres tâches que la RAP et la traduction de la parole. Dans cet article, nous décrivons notre implémentation open-source de BEST-RQ et réalisons une première étude en le comparant à wav2vec 2.0 sur quatre tâches. Nous montrons que BERT-RQ peut atteindre des performances similaires à celles de wav2vec 2.0 tout en réduisant le temps d’apprentissage d’un facteur supérieur à deux.
%U https://aclanthology.org/2024.jeptalnrecital-jep.42
%P 412-420
Markdown (Informal)
[Implémentation ouverte et étude de BEST-RQ pour le traitement de la parole](https://aclanthology.org/2024.jeptalnrecital-jep.42) (Whetten et al., JEP/TALN/RECITAL 2024)
ACL