Utilisation de wav2vec 2.0 pour des tâches de classifications phonétiques : aspects méthodologiques

Lila Kim, Cedric Gendrot


Abstract
L’apprentissage auto-supervisé, particulièrement dans le contexte de la parole, a démontré son efficacité dans diverses tâches telles que la reconnaissance du locuteur et la reconnaissance de la parole. Notre question de recherche se concentre sur l’efficacité des représentations vectorielles - extraites de phonèmes - plus courtes par rapport à des séquences plus longues dans la détection de la nasalité. Deux approches distinctes ont été étudiées : extraire des vecteurs sur la durée du phonème et prendre des séquences plus longues avec une seconde ajoutée de chaque côté du phonème, puis récupérer la partie centrale a posteriori. Les résultats révèlent que les modèles réagissent différemment selon les phones et les locuteurs, avec une variabilité observée à ces niveaux. Le modèle à séquences longues surpasse le modèle à séquences courtes en assurant une corrélation plus robuste avec le débit d’air nasal.
Anthology ID:
2024.jeptalnrecital-jep.23
Volume:
Actes des 35èmes Journées d'Études sur la Parole
Month:
7
Year:
2024
Address:
Toulouse, France
Editors:
Mathieu Balaguer, Nihed Bendahman, Lydia-Mai Ho-dac, Julie Mauclair, Jose G Moreno, Julien Pinquier
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA and AFPC
Note:
Pages:
219–229
Language:
French
URL:
https://aclanthology.org/2024.jeptalnrecital-jep.23
DOI:
Bibkey:
Cite (ACL):
Lila Kim and Cedric Gendrot. 2024. Utilisation de wav2vec 2.0 pour des tâches de classifications phonétiques : aspects méthodologiques. In Actes des 35èmes Journées d'Études sur la Parole, pages 219–229, Toulouse, France. ATALA and AFPC.
Cite (Informal):
Utilisation de wav2vec 2.0 pour des tâches de classifications phonétiques : aspects méthodologiques (Kim & Gendrot, JEP/TALN/RECITAL 2024)
Copy Citation:
PDF:
https://aclanthology.org/2024.jeptalnrecital-jep.23.pdf