@inproceedings{lavigne-cuny-2025-lingua,
title = "Lingua Libre {\`a} l'{\`e}re de l{'}automatisation: l'{I}.{A}. au service du crowdsourcing d{'}un corpus oral",
author = "Lavigne, Camille and
Cuny, Florian",
editor = "Bechet, Fr{\'e}d{\'e}ric and
Chifu, Adrian-Gabriel and
Pinel-sauvagnat, Karen and
Favre, Benoit and
Maes, Eliot and
Nurbakova, Diana",
booktitle = "Actes de l'atelier Science Participative pour les Donn{\'e}es et Corpus Linguistiques 2025 (ParCol)",
month = "6",
year = "2025",
address = "Marseille, France",
publisher = "ATALA {\textbackslash}{\textbackslash}{\&} ARIA",
url = "https://aclanthology.org/2025.jeptalnrecital-parcol.4/",
pages = "11--24",
language = "fra",
abstract = "Lingua Libre, projet participatif collectant de la production orale, a amass{\'e} plus de 380 heures d{'}enregistrements, 1 350 000 fichiers audio, dans pr{\`e}s de 300 langues diff{\'e}rentes. Le potentiel d{'}un tel jeu de donn{\'e}es pour tester des hypoth{\`e}ses linguistiques ou pour des t{\^a}ches d{'}ASR est prometteur, mais diminu{\'e} par le manque d{'}harmonisation et de nettoyage syst{\'e}matique des donn{\'e}es. Ce travail est un pas suppl{\'e}mentaire vers un jeu de donn{\'e}es issu de Lingua Libre de grande qualit{\'e} et standardis{\'e}. Ce travail r{\'e}v{\`e}le des disparit{\'e}s r{\'e}currentes entre les enregistrements et la transcription qui en est fournie. Ces erreurs, bien que rares, sont r{\'e}guli{\`e}res, et potentiellement {\'e}vitables. En effet, le mod{\`e}le d{'}ASR Wav2Vec 2.0-Base apr{\`e}s affinage est capable de d{\'e}tecter une large part de ces erreurs. Il pourrait {\^e}tre un puissant outil {\`a} la disposition du contributorat, pour les assister {\`a} la t{\^a}che de patrouille."
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="lavigne-cuny-2025-lingua">
<titleInfo>
<title>Lingua Libre à l’ère de l’automatisation: l’I.A. au service du crowdsourcing d’un corpus oral</title>
</titleInfo>
<name type="personal">
<namePart type="given">Camille</namePart>
<namePart type="family">Lavigne</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Florian</namePart>
<namePart type="family">Cuny</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2025-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de l’atelier Science Participative pour les Données et Corpus Linguistiques 2025 (ParCol)</title>
</titleInfo>
<name type="personal">
<namePart type="given">Frédéric</namePart>
<namePart type="family">Bechet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Adrian-Gabriel</namePart>
<namePart type="family">Chifu</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Karen</namePart>
<namePart type="family">Pinel-sauvagnat</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Benoit</namePart>
<namePart type="family">Favre</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Eliot</namePart>
<namePart type="family">Maes</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Diana</namePart>
<namePart type="family">Nurbakova</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA \textbackslash\textbackslash& ARIA</publisher>
<place>
<placeTerm type="text">Marseille, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Lingua Libre, projet participatif collectant de la production orale, a amassé plus de 380 heures d’enregistrements, 1 350 000 fichiers audio, dans près de 300 langues différentes. Le potentiel d’un tel jeu de données pour tester des hypothèses linguistiques ou pour des tâches d’ASR est prometteur, mais diminué par le manque d’harmonisation et de nettoyage systématique des données. Ce travail est un pas supplémentaire vers un jeu de données issu de Lingua Libre de grande qualité et standardisé. Ce travail révèle des disparités récurrentes entre les enregistrements et la transcription qui en est fournie. Ces erreurs, bien que rares, sont régulières, et potentiellement évitables. En effet, le modèle d’ASR Wav2Vec 2.0-Base après affinage est capable de détecter une large part de ces erreurs. Il pourrait être un puissant outil à la disposition du contributorat, pour les assister à la tâche de patrouille.</abstract>
<identifier type="citekey">lavigne-cuny-2025-lingua</identifier>
<location>
<url>https://aclanthology.org/2025.jeptalnrecital-parcol.4/</url>
</location>
<part>
<date>2025-6</date>
<extent unit="page">
<start>11</start>
<end>24</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Lingua Libre à l’ère de l’automatisation: l’I.A. au service du crowdsourcing d’un corpus oral
%A Lavigne, Camille
%A Cuny, Florian
%Y Bechet, Frédéric
%Y Chifu, Adrian-Gabriel
%Y Pinel-sauvagnat, Karen
%Y Favre, Benoit
%Y Maes, Eliot
%Y Nurbakova, Diana
%S Actes de l’atelier Science Participative pour les Données et Corpus Linguistiques 2025 (ParCol)
%D 2025
%8 June
%I ATALA \textbackslash\textbackslash& ARIA
%C Marseille, France
%G fra
%F lavigne-cuny-2025-lingua
%X Lingua Libre, projet participatif collectant de la production orale, a amassé plus de 380 heures d’enregistrements, 1 350 000 fichiers audio, dans près de 300 langues différentes. Le potentiel d’un tel jeu de données pour tester des hypothèses linguistiques ou pour des tâches d’ASR est prometteur, mais diminué par le manque d’harmonisation et de nettoyage systématique des données. Ce travail est un pas supplémentaire vers un jeu de données issu de Lingua Libre de grande qualité et standardisé. Ce travail révèle des disparités récurrentes entre les enregistrements et la transcription qui en est fournie. Ces erreurs, bien que rares, sont régulières, et potentiellement évitables. En effet, le modèle d’ASR Wav2Vec 2.0-Base après affinage est capable de détecter une large part de ces erreurs. Il pourrait être un puissant outil à la disposition du contributorat, pour les assister à la tâche de patrouille.
%U https://aclanthology.org/2025.jeptalnrecital-parcol.4/
%P 11-24
Markdown (Informal)
[Lingua Libre à l’ère de l’automatisation: l’I.A. au service du crowdsourcing d’un corpus oral](https://aclanthology.org/2025.jeptalnrecital-parcol.4/) (Lavigne & Cuny, JEP/TALN/RECITAL 2025)
ACL