Systèmes d’écriture et qualité des données : l’affinage de modèles de translittération dans un contexte de faibles ressources

Emmett Strickland, Ilaine Wang, Damien Nouvel, Bénédicte Diot-Parvaz Ahmad


Abstract
Cet article présente une expérience visant à construire des modèles de romanisation affinés pour onze langues parmi lesquelles se trouvent des langues dites peu dotées. Nous démontrons qu’un modèle de romanisation efficace peut être créé en affinant un modèle de base entraîné sur un corpus important d’une ou plusieurs autres langues. Le système d’écriture semblerait jouer un rôle dans l’efficacité de certains modèles affinés. Nous présentons également des méthodes pour évaluer la qualité des données d’entraînement et d’évaluation, et comparons notre modèle arabe le plus performant à un modèle de référence.
Anthology ID:
2025.jeptalnrecital-taln.44
Volume:
Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux
Month:
6
Year:
2025
Address:
Marseille, France
Editors:
Frédéric Bechet, Adrian-Gabriel Chifu, Karen Pinel-sauvagnat, Benoit Favre, Eliot Maes, Diana Nurbakova
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA \\& ARIA
Note:
Pages:
729–740
Language:
French
URL:
https://aclanthology.org/2025.jeptalnrecital-taln.44/
DOI:
Bibkey:
Cite (ACL):
Emmett Strickland, Ilaine Wang, Damien Nouvel, and Bénédicte Diot-Parvaz Ahmad. 2025. Systèmes d’écriture et qualité des données : l’affinage de modèles de translittération dans un contexte de faibles ressources. In Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux, pages 729–740, Marseille, France. ATALA \\& ARIA.
Cite (Informal):
Systèmes d’écriture et qualité des données : l’affinage de modèles de translittération dans un contexte de faibles ressources (Strickland et al., JEP/TALN/RECITAL 2025)
Copy Citation:
PDF:
https://aclanthology.org/2025.jeptalnrecital-taln.44.pdf