@inproceedings{hutin-etal-2025-lila,
title = "{L}i{LA} : Outil d{'}augmentation automatis{\'e}e des donn{\'e}es vocales participatives de Lingua Libre",
author = "Hutin, Mathilde and
Allassonni{\`e}re-Tang, Marc and
Pr{\'e}galdiny, Lucas and
L{\'e}v{\^e}que, Lucas",
editor = "Bechet, Fr{\'e}d{\'e}ric and
Chifu, Adrian-Gabriel and
Pinel-sauvagnat, Karen and
Favre, Benoit and
Maes, Eliot and
Nurbakova, Diana",
booktitle = "Actes de l'atelier Science Participative pour les Donn{\'e}es et Corpus Linguistiques 2025 (ParCol)",
month = "6",
year = "2025",
address = "Marseille, France",
publisher = "ATALA {\textbackslash}{\textbackslash}{\&} ARIA",
url = "https://aclanthology.org/2025.jeptalnrecital-parcol.3/",
pages = "6--10",
language = "fra",
abstract = "La constitution de corpus vocaux, n{\'e}cessaires {\`a} l{'}exploration de la phon{\'e}tique et de la phonologie des langues du monde, soul{\`e}ve de nombreux d{\'e}fis. La constitution de corpus multi-dialectes, permettant d{'}explorer la variation dialectale, ou de corpus multilingues, permettant de comparer plusieurs langues, est d{'}autant plus difficile que, pour que chaque dialecte /langue soit comparable aux autres dans le corpus, les donn{\'e}es doivent avoir {\'e}t{\'e} enregistr{\'e}es dans les m{\^e}mes conditions (m{\^e}me mat{\'e}riel, m{\^e}me protocole ...). Une solution {\`a} ces d{\'e}fis semble envisageable aujourd{'}hui gr{\^a}ce aux donn{\'e}es participatives, par d{\'e}finition administr{\'e}es et enregistr{\'e}es par des volontaires, et donc moins co{\^u}teuses {\`a} tous points de vue pour la communaut{\'e} scientifique. En mars 2025, Lingua Libre, la m{\'e}diath{\`e}que linguistique participative de Wikim{\'e}dia France ouverte depuis 2018, compte {\textasciitilde}1,4M enregistrements en 284 langues par 2.547 individus {\`a} travers le monde : notre projet est de cr{\'e}er un outil pour rendre ces donn{\'e}es brutes exploitables par les linguistes."
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="hutin-etal-2025-lila">
<titleInfo>
<title>LiLA : Outil d’augmentation automatisée des données vocales participatives de Lingua Libre</title>
</titleInfo>
<name type="personal">
<namePart type="given">Mathilde</namePart>
<namePart type="family">Hutin</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Marc</namePart>
<namePart type="family">Allassonnière-Tang</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Lucas</namePart>
<namePart type="family">Prégaldiny</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Lucas</namePart>
<namePart type="family">Lévêque</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2025-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de l’atelier Science Participative pour les Données et Corpus Linguistiques 2025 (ParCol)</title>
</titleInfo>
<name type="personal">
<namePart type="given">Frédéric</namePart>
<namePart type="family">Bechet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Adrian-Gabriel</namePart>
<namePart type="family">Chifu</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Karen</namePart>
<namePart type="family">Pinel-sauvagnat</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Benoit</namePart>
<namePart type="family">Favre</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Eliot</namePart>
<namePart type="family">Maes</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Diana</namePart>
<namePart type="family">Nurbakova</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA \textbackslash\textbackslash& ARIA</publisher>
<place>
<placeTerm type="text">Marseille, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>La constitution de corpus vocaux, nécessaires à l’exploration de la phonétique et de la phonologie des langues du monde, soulève de nombreux défis. La constitution de corpus multi-dialectes, permettant d’explorer la variation dialectale, ou de corpus multilingues, permettant de comparer plusieurs langues, est d’autant plus difficile que, pour que chaque dialecte /langue soit comparable aux autres dans le corpus, les données doivent avoir été enregistrées dans les mêmes conditions (même matériel, même protocole ...). Une solution à ces défis semble envisageable aujourd’hui grâce aux données participatives, par définition administrées et enregistrées par des volontaires, et donc moins coûteuses à tous points de vue pour la communauté scientifique. En mars 2025, Lingua Libre, la médiathèque linguistique participative de Wikimédia France ouverte depuis 2018, compte ~1,4M enregistrements en 284 langues par 2.547 individus à travers le monde : notre projet est de créer un outil pour rendre ces données brutes exploitables par les linguistes.</abstract>
<identifier type="citekey">hutin-etal-2025-lila</identifier>
<location>
<url>https://aclanthology.org/2025.jeptalnrecital-parcol.3/</url>
</location>
<part>
<date>2025-6</date>
<extent unit="page">
<start>6</start>
<end>10</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T LiLA : Outil d’augmentation automatisée des données vocales participatives de Lingua Libre
%A Hutin, Mathilde
%A Allassonnière-Tang, Marc
%A Prégaldiny, Lucas
%A Lévêque, Lucas
%Y Bechet, Frédéric
%Y Chifu, Adrian-Gabriel
%Y Pinel-sauvagnat, Karen
%Y Favre, Benoit
%Y Maes, Eliot
%Y Nurbakova, Diana
%S Actes de l’atelier Science Participative pour les Données et Corpus Linguistiques 2025 (ParCol)
%D 2025
%8 June
%I ATALA \textbackslash\textbackslash& ARIA
%C Marseille, France
%G fra
%F hutin-etal-2025-lila
%X La constitution de corpus vocaux, nécessaires à l’exploration de la phonétique et de la phonologie des langues du monde, soulève de nombreux défis. La constitution de corpus multi-dialectes, permettant d’explorer la variation dialectale, ou de corpus multilingues, permettant de comparer plusieurs langues, est d’autant plus difficile que, pour que chaque dialecte /langue soit comparable aux autres dans le corpus, les données doivent avoir été enregistrées dans les mêmes conditions (même matériel, même protocole ...). Une solution à ces défis semble envisageable aujourd’hui grâce aux données participatives, par définition administrées et enregistrées par des volontaires, et donc moins coûteuses à tous points de vue pour la communauté scientifique. En mars 2025, Lingua Libre, la médiathèque linguistique participative de Wikimédia France ouverte depuis 2018, compte ~1,4M enregistrements en 284 langues par 2.547 individus à travers le monde : notre projet est de créer un outil pour rendre ces données brutes exploitables par les linguistes.
%U https://aclanthology.org/2025.jeptalnrecital-parcol.3/
%P 6-10
Markdown (Informal)
[LiLA : Outil d’augmentation automatisée des données vocales participatives de Lingua Libre](https://aclanthology.org/2025.jeptalnrecital-parcol.3/) (Hutin et al., JEP/TALN/RECITAL 2025)
ACL