Implémentation ouverte et étude de BEST-RQ pour le traitement de la parole

Ryan Whetten; Titouan Parcollet; Marco Dinarelli; Yannick Estève

Implémentation ouverte et étude de BEST-RQ pour le traitement de la parole

Ryan Whetten, Titouan Parcollet, Marco Dinarelli, Yannick Estève

Abstract

L’apprentissage auto-supervisé (SSL) a fait ses preuves pour le traitement automatique de la parole mais est généralement très consommateur de données, de mémoire et de ressources matérielles. L’approche BEST-RQ (BERT-based Speech pre-Training with Random-projection Quantizer) est une approche SSL performante en reconnaissance automatique de la parole (RAP), plus efficiente que wav2vec 2.0. L’article original de Google qui introduit BEST-RQ manque de détails, comme le nombre d’heures de GPU/TPU utilisées pour le pré-entraînement et il n’existe pas d’implémentation open-source facile à utiliser. De plus, BEST-RQ n’a pas été évalué sur d’autres tâches que la RAP et la traduction de la parole. Dans cet article, nous décrivons notre implémentation open-source de BEST-RQ et réalisons une première étude en le comparant à wav2vec 2.0 sur quatre tâches. Nous montrons que BERT-RQ peut atteindre des performances similaires à celles de wav2vec 2.0 tout en réduisant le temps d’apprentissage d’un facteur supérieur à deux.

Anthology ID:: 2024.jeptalnrecital-jep.42
Volume:: Actes des 35èmes Journées d'Études sur la Parole
Month:: 7
Year:: 2024
Address:: Toulouse, France
Editors:: Mathieu Balaguer, Nihed Bendahman, Lydia-Mai Ho-dac, Julie Mauclair, Jose G Moreno, Julien Pinquier
Venue:: JEP/TALN/RECITAL
SIG:
Publisher:: ATALA and AFPC
Note:
Pages:: 412–420
Language:: French
URL:: https://aclanthology.org/2024.jeptalnrecital-jep.42/
DOI:
Bibkey:
Cite (ACL):: Ryan Whetten, Titouan Parcollet, Marco Dinarelli, and Yannick Estève. 2024. Implémentation ouverte et étude de BEST-RQ pour le traitement de la parole. In Actes des 35èmes Journées d'Études sur la Parole, pages 412–420, Toulouse, France. ATALA and AFPC.
Cite (Informal):: Implémentation ouverte et étude de BEST-RQ pour le traitement de la parole (Whetten et al., JEP/TALN/RECITAL 2024)
Copy Citation:
PDF:: https://aclanthology.org/2024.jeptalnrecital-jep.42.pdf

PDF Cite Search Fix data