Apprentissage profond pour l’analyse de la parole pathologique : étude comparative entre modèles CNN et à base de transformers

Malo Maisonneuve, Corinne Fredouille, Muriel Lalain, Alain Ghio, Virginie Woisard


Abstract
Les cancers des voies aérodigestives supérieures (VADS) ont un impact significatif sur la capacité des patients à s’exprimer, ce qui affecte leur qualité de vie. Les évaluations actuelles de la parole pathologique sont subjectives, justifiant le besoin de méthodes automatiques et objectives. Un modèle auto-supervisé basé sur Wav2Vec2 est proposé pour la classification de phonèmes chez les patients atteints de cancer des VADS, visant une amélioration des taux de bonne classification et une meilleure discrimination des caractéristiques phonétiques. Les impacts des paramètres d’affinage, des données de pré-entraînement, de la taille du modèle et des données d’affinage sont explorés. Nos résultats montrent que l’architecture Wav2Vec2 surpasse une approche basée sur un CNN, et montre une corrélation significative avec les mesures perceptives. Ce travail ouvre la voie à une meilleure compréhension de la parole pathologique, via une représentation auto-apprise de la parole, très pertinente pour des approches d’interprétation à destination des cliniciens.
Anthology ID:
2024.jeptalnrecital-jep.27
Volume:
Actes des 35èmes Journées d'Études sur la Parole
Month:
7
Year:
2024
Address:
Toulouse, France
Editors:
Mathieu Balaguer, Nihed Bendahman, Lydia-Mai Ho-dac, Julie Mauclair, Jose G Moreno, Julien Pinquier
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA and AFPC
Note:
Pages:
261–270
Language:
French
URL:
https://aclanthology.org/2024.jeptalnrecital-jep.27
DOI:
Bibkey:
Cite (ACL):
Malo Maisonneuve, Corinne Fredouille, Muriel Lalain, Alain Ghio, and Virginie Woisard. 2024. Apprentissage profond pour l’analyse de la parole pathologique : étude comparative entre modèles CNN et à base de transformers. In Actes des 35èmes Journées d'Études sur la Parole, pages 261–270, Toulouse, France. ATALA and AFPC.
Cite (Informal):
Apprentissage profond pour l’analyse de la parole pathologique : étude comparative entre modèles CNN et à base de transformers (Maisonneuve et al., JEP/TALN/RECITAL 2024)
Copy Citation:
PDF:
https://aclanthology.org/2024.jeptalnrecital-jep.27.pdf