Oriane Nédey
2025
COLaF : Corpus et Outils pour les Langues de France et variétés de français
Benoît Sagot
|
Slim Ouni
|
Sam Bigeard
|
Lucence Ing
|
Thibault Clérice
|
Rachel Bawden
|
Emmanuel Vincent
|
Malek Yaich
|
Panagiotis Tsolakis
|
Juliette Janès
|
Rasul Dent
|
Oriane Nédey
|
Vincent Colotte
|
Mostafa Sadeghi
Actes de la session industrielle de CORIA-TALN 2025
Nous présentons COLaF, un projet dédié à la collecte et au développement d’outils et de ressources de traitement automatique des langues (TAL) pour le français et les autres langues de France, avec une attention particulière sur les langues et variétés moins dotées. Le projet concerne les données textuelles, audio et vidéo, afin de fournir des corpus et des outils pour le langage écrit, parlé et signé. Le projet inclut la collecte, la normalisation et la documentation de données préexistantes, y compris des données actuellement non accessibles ou non exploitables à des fins de recherche, ainsi que le développement d’outils de TAL adaptés à ces langues, comme des outils pour l’annotation linguistique et pour la traduction automatique. Cet article permet la présentation des principaux défis posés par le projet et de premiers résultats.
La traduction automatique dialectale: état de l’art et étude préliminaire sur le continuum dialectal de l’occitan
Oriane Nédey
Actes des 18e Rencontres Jeunes Chercheurs en RI (RJCRI) et 27ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL)
Cet article dresse un état de l’art de la traduction automatique et de son évaluation pour les langues à variation dialectale, et en particulier pour les continuums dialectaux. Pour illustrer cet état de l’art, nous proposons une série d’expériences préliminaires sur le continuum occitan, afin de dresser un état des performances des systèmes existants pour la traduction depuis et vers plusieurs variétés d’occitan. Nos résultats indiquent d’une part des performances globalement satisfaisantes pour la traduction vers le français et l’anglais. D’autre part, des analyses mélangées à des outils d’identification de langues sur les prédictions vers l’occitan mettent en lumière la capacité de la plupart des systèmes évalués à générer des textes dans cette langue (y compris en zero-shot ), mais révèlent aussi des limitations en termes d’évaluation de la diversité dialectale dans les traductions proposées.
Search
Fix author
Co-authors
- Rachel Bawden 1
- Sam Bigeard 1
- Thibault Clérice 1
- Vincent Colotte 1
- Rasul Dent 1
- show all...