Lingua Libre à l’ère de l’automatisation: l’I.A. au service du crowdsourcing d’un corpus oral

Camille Lavigne, Florian Cuny


Abstract
Lingua Libre, projet participatif collectant de la production orale, a amassé plus de 380 heures d’enregistrements, 1 350 000 fichiers audio, dans près de 300 langues différentes. Le potentiel d’un tel jeu de données pour tester des hypothèses linguistiques ou pour des tâches d’ASR est prometteur, mais diminué par le manque d’harmonisation et de nettoyage systématique des données. Ce travail est un pas supplémentaire vers un jeu de données issu de Lingua Libre de grande qualité et standardisé. Ce travail révèle des disparités récurrentes entre les enregistrements et la transcription qui en est fournie. Ces erreurs, bien que rares, sont régulières, et potentiellement évitables. En effet, le modèle d’ASR Wav2Vec 2.0-Base après affinage est capable de détecter une large part de ces erreurs. Il pourrait être un puissant outil à la disposition du contributorat, pour les assister à la tâche de patrouille.
Anthology ID:
2025.jeptalnrecital-parcol.4
Volume:
Actes de l'atelier Science Participative pour les Données et Corpus Linguistiques 2025 (ParCol)
Month:
6
Year:
2025
Address:
Marseille, France
Editors:
Frédéric Bechet, Adrian-Gabriel Chifu, Karen Pinel-sauvagnat, Benoit Favre, Eliot Maes, Diana Nurbakova
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA \\& ARIA
Note:
Pages:
11–24
Language:
French
URL:
https://aclanthology.org/2025.jeptalnrecital-parcol.4/
DOI:
Bibkey:
Cite (ACL):
Camille Lavigne and Florian Cuny. 2025. Lingua Libre à l’ère de l’automatisation: l’I.A. au service du crowdsourcing d’un corpus oral. In Actes de l'atelier Science Participative pour les Données et Corpus Linguistiques 2025 (ParCol), pages 11–24, Marseille, France. ATALA \\& ARIA.
Cite (Informal):
Lingua Libre à l’ère de l’automatisation: l’I.A. au service du crowdsourcing d’un corpus oral (Lavigne & Cuny, JEP/TALN/RECITAL 2025)
Copy Citation:
PDF:
https://aclanthology.org/2025.jeptalnrecital-parcol.4.pdf