LiLA : Outil d’augmentation automatisée des données vocales participatives de Lingua Libre

Mathilde Hutin, Marc Allassonnière-Tang, Lucas Prégaldiny, Lucas Lévêque


Abstract
La constitution de corpus vocaux, nécessaires à l’exploration de la phonétique et de la phonologie des langues du monde, soulève de nombreux défis. La constitution de corpus multi-dialectes, permettant d’explorer la variation dialectale, ou de corpus multilingues, permettant de comparer plusieurs langues, est d’autant plus difficile que, pour que chaque dialecte /langue soit comparable aux autres dans le corpus, les données doivent avoir été enregistrées dans les mêmes conditions (même matériel, même protocole ...). Une solution à ces défis semble envisageable aujourd’hui grâce aux données participatives, par définition administrées et enregistrées par des volontaires, et donc moins coûteuses à tous points de vue pour la communauté scientifique. En mars 2025, Lingua Libre, la médiathèque linguistique participative de Wikimédia France ouverte depuis 2018, compte ~1,4M enregistrements en 284 langues par 2.547 individus à travers le monde : notre projet est de créer un outil pour rendre ces données brutes exploitables par les linguistes.
Anthology ID:
2025.jeptalnrecital-parcol.3
Volume:
Actes de l'atelier Science Participative pour les Données et Corpus Linguistiques 2025 (ParCol)
Month:
6
Year:
2025
Address:
Marseille, France
Editors:
Frédéric Bechet, Adrian-Gabriel Chifu, Karen Pinel-sauvagnat, Benoit Favre, Eliot Maes, Diana Nurbakova
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA \\& ARIA
Note:
Pages:
6–10
Language:
French
URL:
https://aclanthology.org/2025.jeptalnrecital-parcol.3/
DOI:
Bibkey:
Cite (ACL):
Mathilde Hutin, Marc Allassonnière-Tang, Lucas Prégaldiny, and Lucas Lévêque. 2025. LiLA : Outil d’augmentation automatisée des données vocales participatives de Lingua Libre. In Actes de l'atelier Science Participative pour les Données et Corpus Linguistiques 2025 (ParCol), pages 6–10, Marseille, France. ATALA \\& ARIA.
Cite (Informal):
LiLA : Outil d’augmentation automatisée des données vocales participatives de Lingua Libre (Hutin et al., JEP/TALN/RECITAL 2025)
Copy Citation:
PDF:
https://aclanthology.org/2025.jeptalnrecital-parcol.3.pdf