COLaF : Corpus et Outils pour les Langues de France et variétés de français

Benoît Sagot, Slim Ouni, Sam Bigeard, Lucence Ing, Thibault Clérice, Rachel Bawden, Emmanuel Vincent, Malek Yaich, Panagiotis Tsolakis, Juliette Janès, Rasul Dent, Oriane Nédey, Vincent Colotte, Mostafa Sadeghi


Abstract
Nous présentons COLaF, un projet dédié à la collecte et au développement d’outils et de ressources de traitement automatique des langues (TAL) pour le français et les autres langues de France, avec une attention particulière sur les langues et variétés moins dotées. Le projet concerne les données textuelles, audio et vidéo, afin de fournir des corpus et des outils pour le langage écrit, parlé et signé. Le projet inclut la collecte, la normalisation et la documentation de données préexistantes, y compris des données actuellement non accessibles ou non exploitables à des fins de recherche, ainsi que le développement d’outils de TAL adaptés à ces langues, comme des outils pour l’annotation linguistique et pour la traduction automatique. Cet article permet la présentation des principaux défis posés par le projet et de premiers résultats.
Anthology ID:
2025.jeptalnrecital-industrielle.3
Volume:
Actes de la session industrielle de CORIA-TALN 2025
Month:
6
Year:
2025
Address:
Marseille, France
Editors:
Frédéric Bechet, Adrian-Gabriel Chifu, Karen Pinel-sauvagnat, Benoit Favre, Eliot Maes, Diana Nurbakova
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA \\& ARIA
Note:
Pages:
33–47
Language:
French
URL:
https://aclanthology.org/2025.jeptalnrecital-industrielle.3/
DOI:
Bibkey:
Cite (ACL):
Benoît Sagot, Slim Ouni, Sam Bigeard, Lucence Ing, Thibault Clérice, Rachel Bawden, Emmanuel Vincent, Malek Yaich, Panagiotis Tsolakis, Juliette Janès, Rasul Dent, Oriane Nédey, Vincent Colotte, and Mostafa Sadeghi. 2025. COLaF : Corpus et Outils pour les Langues de France et variétés de français. In Actes de la session industrielle de CORIA-TALN 2025, pages 33–47, Marseille, France. ATALA \\& ARIA.
Cite (Informal):
COLaF : Corpus et Outils pour les Langues de France et variétés de français (Sagot et al., JEP/TALN/RECITAL 2025)
Copy Citation:
PDF:
https://aclanthology.org/2025.jeptalnrecital-industrielle.3.pdf