pdf
bib
Actes de l'atelier Science Participative pour les Données et Corpus Linguistiques 2025 (ParCol)
Frédéric Bechet
|
Adrian-Gabriel Chifu
|
Karen Pinel-sauvagnat
|
Benoit Favre
|
Eliot Maes
|
Diana Nurbakova
pdf
bib
abs
La science participative en pratique : comment réussir (et ne pas le faire) ?
Laure Turcati
|
Alice Millour
|
Renaud Debailly
|
Karën Fort
|
Asma Steinhausser
|
Corentin Biets
|
Anne Dozières
Cet article présente un travail collectif mené par des chercheurs et des porteurs de projets dans le domaine des sciences participatives (SP). Notre démarche s’inscrit dans la « culture de l’erreur » dans les SP, introduite par Westreicher et al. (2021) : nous partageons notre vision des erreurs et des difficultés que nous avons expérimentées, ce que nous en avons appris et ce que nous ferions différemment. Ce travail s’appuie sur dix projets français couvrant une variété d’objectifs, de disciplines, et de publics. Cette diversité nous a permis de mener une réflexion transversale et libre de toute spécificité sur nos pratiques. Nous avons identifié 3 types d’erreurs ou de difficultés, que nous illustrons par des exemples tirés de notre propre expérience. Le premier type d’erreurs concerne celles que nous ne répéterions pas. Contrairement à ces erreurs « réelles », les deux types de difficultés suivants sont une invitation à défendre une vision plus réaliste des SP. Le deuxième type fait en effet référence aux incertitudes inhérentes à la plasticité des projets de SP. Le dernier type concerne enfin les obstacles et difficultés qui peuvent conduire à des conséquences positives inattendues, à la fois en termes d’objectifs scientifiques et vis-à-vis de la communauté des participant(e)s. Dans cet article, nous encourageons donc un changement dans la façon dont nous considérons les erreurs et les difficultés : l’incertitude est inhérente aux SP et nous affirmons notre droit d’expérimenter, de faire des erreurs et de changer de pratiques au cours de la vie d’un projet.
pdf
bib
abs
La science participative et l’ANR DiLSi
Pierre Magistry
|
Ilaine Wang
Cette communication propose un retour d’expérience sur les interactions entre le projet DiLSi et les communautés de locuteurs du teochew de la diaspora et du tâigí.
pdf
bib
abs
LiLA : Outil d’augmentation automatisée des données vocales participatives de Lingua Libre
Mathilde Hutin
|
Marc Allassonnière-Tang
|
Lucas Prégaldiny
|
Lucas Lévêque
La constitution de corpus vocaux, nécessaires à l’exploration de la phonétique et de la phonologie des langues du monde, soulève de nombreux défis. La constitution de corpus multi-dialectes, permettant d’explorer la variation dialectale, ou de corpus multilingues, permettant de comparer plusieurs langues, est d’autant plus difficile que, pour que chaque dialecte /langue soit comparable aux autres dans le corpus, les données doivent avoir été enregistrées dans les mêmes conditions (même matériel, même protocole ...). Une solution à ces défis semble envisageable aujourd’hui grâce aux données participatives, par définition administrées et enregistrées par des volontaires, et donc moins coûteuses à tous points de vue pour la communauté scientifique. En mars 2025, Lingua Libre, la médiathèque linguistique participative de Wikimédia France ouverte depuis 2018, compte ~1,4M enregistrements en 284 langues par 2.547 individus à travers le monde : notre projet est de créer un outil pour rendre ces données brutes exploitables par les linguistes.
pdf
bib
abs
Lingua Libre à l’ère de l’automatisation: l’I.A. au service du crowdsourcing d’un corpus oral
Camille Lavigne
|
Florian Cuny
Lingua Libre, projet participatif collectant de la production orale, a amassé plus de 380 heures d’enregistrements, 1 350 000 fichiers audio, dans près de 300 langues différentes. Le potentiel d’un tel jeu de données pour tester des hypothèses linguistiques ou pour des tâches d’ASR est prometteur, mais diminué par le manque d’harmonisation et de nettoyage systématique des données. Ce travail est un pas supplémentaire vers un jeu de données issu de Lingua Libre de grande qualité et standardisé. Ce travail révèle des disparités récurrentes entre les enregistrements et la transcription qui en est fournie. Ces erreurs, bien que rares, sont régulières, et potentiellement évitables. En effet, le modèle d’ASR Wav2Vec 2.0-Base après affinage est capable de détecter une large part de ces erreurs. Il pourrait être un puissant outil à la disposition du contributorat, pour les assister à la tâche de patrouille.