Représentation de la parole multilingue par apprentissage auto-supervisé dans un contexte subsaharien

Antoine Caubrière, Elodie Gauthier


Abstract
Les approches auto-supervisées ont conduit à des avancées majeures dans le domaine de l’apprentissage profond. Par l’exploitation d’une grande quantité de données non annotées, ces approches ont notamment permis des améliorations dans des contextes peu dotés. Toutefois, les langues africaines restent majoritairement sous-représentées dans les jeux de données de préentraînement publiquement distribués. Dans ces travaux, nous préentraînons des modèles de parole auto-supervisés multilingues à partir de langues subsahariennes exclusivement. Nous étudions la pertinence des représentations apprises sur la tâche de reconnaissance de parole, en utilisant le jeu d’évaluation FLEURS-102. Notre modèle HuBERT Base obtient des résultats similaires face à l’approche multilingue w2v-bert de FLEURS, tout en étant plus efficient, avec 6 fois moins de paramètres et 7 fois moins de données. Nous présentont aussi un second modèle exploitant une sous-sélection équilibrée des données initiales, obtenant des performances compétitives avec près de 80 fois moins de données de préentraînement.
Anthology ID:
2024.jeptalnrecital-jep.17
Volume:
Actes des 35èmes Journées d'Études sur la Parole
Month:
7
Year:
2024
Address:
Toulouse, France
Editors:
Mathieu Balaguer, Nihed Bendahman, Lydia-Mai Ho-dac, Julie Mauclair, Jose G Moreno, Julien Pinquier
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA and AFPC
Note:
Pages:
163–172
Language:
French
URL:
https://aclanthology.org/2024.jeptalnrecital-jep.17
DOI:
Bibkey:
Cite (ACL):
Antoine Caubrière and Elodie Gauthier. 2024. Représentation de la parole multilingue par apprentissage auto-supervisé dans un contexte subsaharien. In Actes des 35èmes Journées d'Études sur la Parole, pages 163–172, Toulouse, France. ATALA and AFPC.
Cite (Informal):
Représentation de la parole multilingue par apprentissage auto-supervisé dans un contexte subsaharien (Caubrière & Gauthier, JEP/TALN/RECITAL 2024)
Copy Citation:
PDF:
https://aclanthology.org/2024.jeptalnrecital-jep.17.pdf