Bénédicte Diot-Parvaz Ahmad


2025

Cet article présente une expérience visant à construire des modèles de romanisation affinés pour onze langues parmi lesquelles se trouvent des langues dites peu dotées. Nous démontrons qu’un modèle de romanisation efficace peut être créé en affinant un modèle de base entraîné sur un corpus important d’une ou plusieurs autres langues. Le système d’écriture semblerait jouer un rôle dans l’efficacité de certains modèles affinés. Nous présentons également des méthodes pour évaluer la qualité des données d’entraînement et d’évaluation, et comparons notre modèle arabe le plus performant à un modèle de référence.

2023

Transformer language models are now a solid baseline for Named Entity Recognition and can be significantly improved by leveraging complementary resources, either by integrating external knowledge or by annotating additional data. In a preliminary step, this work presents experiments on fine-tuning transformer models. Then, a set of experiments has been conducted with a Wikipedia-based reclassification system. Additionally, we conducted a small annotation campaign on the Farsi language to evaluate the impact of additional data. These two methods with complementary resources showed improvements compared to fine-tuning only.