LiLA : Outil d’augmentation automatisée des données vocales participatives de Lingua Libre

Mathilde Hutin; Marc Allassonnière-Tang; Lucas Prégaldiny; Lucas Lévêque

LiLA : Outil d’augmentation automatisée des données vocales participatives de Lingua Libre

Mathilde Hutin, Marc Allassonnière-Tang, Lucas Prégaldiny, Lucas Lévêque

Abstract

La constitution de corpus vocaux, nécessaires à l’exploration de la phonétique et de la phonologie des langues du monde, soulève de nombreux défis. La constitution de corpus multi-dialectes, permettant d’explorer la variation dialectale, ou de corpus multilingues, permettant de comparer plusieurs langues, est d’autant plus difficile que, pour que chaque dialecte /langue soit comparable aux autres dans le corpus, les données doivent avoir été enregistrées dans les mêmes conditions (même matériel, même protocole ...). Une solution à ces défis semble envisageable aujourd’hui grâce aux données participatives, par définition administrées et enregistrées par des volontaires, et donc moins coûteuses à tous points de vue pour la communauté scientifique. En mars 2025, Lingua Libre, la médiathèque linguistique participative de Wikimédia France ouverte depuis 2018, compte ~1,4M enregistrements en 284 langues par 2.547 individus à travers le monde : notre projet est de créer un outil pour rendre ces données brutes exploitables par les linguistes.

Anthology ID:: 2025.jeptalnrecital-parcol.3
Volume:: Actes de l'atelier Science Participative pour les Données et Corpus Linguistiques 2025 (ParCol)
Month:: 6
Year:: 2025
Address:: Marseille, France
Editors:: Frédéric Bechet, Adrian-Gabriel Chifu, Karen Pinel-sauvagnat, Benoit Favre, Eliot Maes, Diana Nurbakova
Venue:: JEP/TALN/RECITAL
SIG:
Publisher:: ATALA \\& ARIA
Note:
Pages:: 6–10
Language:: French
URL:: https://aclanthology.org/2025.jeptalnrecital-parcol.3/
DOI:
Bibkey:
Cite (ACL):: Mathilde Hutin, Marc Allassonnière-Tang, Lucas Prégaldiny, and Lucas Lévêque. 2025. LiLA : Outil d’augmentation automatisée des données vocales participatives de Lingua Libre. In Actes de l'atelier Science Participative pour les Données et Corpus Linguistiques 2025 (ParCol), pages 6–10, Marseille, France. ATALA \\& ARIA.
Cite (Informal):: LiLA : Outil d’augmentation automatisée des données vocales participatives de Lingua Libre (Hutin et al., JEP/TALN/RECITAL 2025)
Copy Citation:
PDF:: https://aclanthology.org/2025.jeptalnrecital-parcol.3.pdf

PDF Cite Search Fix data