@inproceedings{strickland-etal-2025-systemes,
title = "Syst{\`e}mes d'{\'e}criture et qualit{\'e} des donn{\'e}es : l{'}affinage de mod{\`e}les de translitt{\'e}ration dans un contexte de faibles ressources",
author = "Strickland, Emmett and
Wang, Ilaine and
Nouvel, Damien and
Diot-Parvaz Ahmad, B{\'e}n{\'e}dicte",
editor = "Bechet, Fr{\'e}d{\'e}ric and
Chifu, Adrian-Gabriel and
Pinel-sauvagnat, Karen and
Favre, Benoit and
Maes, Eliot and
Nurbakova, Diana",
booktitle = "Actes des 32{\`e}me Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux",
month = "6",
year = "2025",
address = "Marseille, France",
publisher = "ATALA {\textbackslash}{\textbackslash}{\&} ARIA",
url = "https://aclanthology.org/2025.jeptalnrecital-taln.44/",
pages = "729--740",
language = "fra",
abstract = "Cet article pr{\'e}sente une exp{\'e}rience visant {\`a} construire des mod{\`e}les de romanisation affin{\'e}s pour onze langues parmi lesquelles se trouvent des langues dites peu dot{\'e}es. Nous d{\'e}montrons qu{'}un mod{\`e}le de romanisation efficace peut {\^e}tre cr{\'e}{\'e} en affinant un mod{\`e}le de base entra{\^i}n{\'e} sur un corpus important d{'}une ou plusieurs autres langues. Le syst{\`e}me d'{\'e}criture semblerait jouer un r{\^o}le dans l{'}efficacit{\'e} de certains mod{\`e}les affin{\'e}s. Nous pr{\'e}sentons {\'e}galement des m{\'e}thodes pour {\'e}valuer la qualit{\'e} des donn{\'e}es d{'}entra{\^i}nement et d'{\'e}valuation, et comparons notre mod{\`e}le arabe le plus performant {\`a} un mod{\`e}le de r{\'e}f{\'e}rence."
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="strickland-etal-2025-systemes">
<titleInfo>
<title>Systèmes d’écriture et qualité des données : l’affinage de modèles de translittération dans un contexte de faibles ressources</title>
</titleInfo>
<name type="personal">
<namePart type="given">Emmett</namePart>
<namePart type="family">Strickland</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Ilaine</namePart>
<namePart type="family">Wang</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Damien</namePart>
<namePart type="family">Nouvel</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Bénédicte</namePart>
<namePart type="family">Diot-Parvaz Ahmad</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2025-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux</title>
</titleInfo>
<name type="personal">
<namePart type="given">Frédéric</namePart>
<namePart type="family">Bechet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Adrian-Gabriel</namePart>
<namePart type="family">Chifu</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Karen</namePart>
<namePart type="family">Pinel-sauvagnat</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Benoit</namePart>
<namePart type="family">Favre</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Eliot</namePart>
<namePart type="family">Maes</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Diana</namePart>
<namePart type="family">Nurbakova</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA \textbackslash\textbackslash& ARIA</publisher>
<place>
<placeTerm type="text">Marseille, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Cet article présente une expérience visant à construire des modèles de romanisation affinés pour onze langues parmi lesquelles se trouvent des langues dites peu dotées. Nous démontrons qu’un modèle de romanisation efficace peut être créé en affinant un modèle de base entraîné sur un corpus important d’une ou plusieurs autres langues. Le système d’écriture semblerait jouer un rôle dans l’efficacité de certains modèles affinés. Nous présentons également des méthodes pour évaluer la qualité des données d’entraînement et d’évaluation, et comparons notre modèle arabe le plus performant à un modèle de référence.</abstract>
<identifier type="citekey">strickland-etal-2025-systemes</identifier>
<location>
<url>https://aclanthology.org/2025.jeptalnrecital-taln.44/</url>
</location>
<part>
<date>2025-6</date>
<extent unit="page">
<start>729</start>
<end>740</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Systèmes d’écriture et qualité des données : l’affinage de modèles de translittération dans un contexte de faibles ressources
%A Strickland, Emmett
%A Wang, Ilaine
%A Nouvel, Damien
%A Diot-Parvaz Ahmad, Bénédicte
%Y Bechet, Frédéric
%Y Chifu, Adrian-Gabriel
%Y Pinel-sauvagnat, Karen
%Y Favre, Benoit
%Y Maes, Eliot
%Y Nurbakova, Diana
%S Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux
%D 2025
%8 June
%I ATALA \textbackslash\textbackslash& ARIA
%C Marseille, France
%G fra
%F strickland-etal-2025-systemes
%X Cet article présente une expérience visant à construire des modèles de romanisation affinés pour onze langues parmi lesquelles se trouvent des langues dites peu dotées. Nous démontrons qu’un modèle de romanisation efficace peut être créé en affinant un modèle de base entraîné sur un corpus important d’une ou plusieurs autres langues. Le système d’écriture semblerait jouer un rôle dans l’efficacité de certains modèles affinés. Nous présentons également des méthodes pour évaluer la qualité des données d’entraînement et d’évaluation, et comparons notre modèle arabe le plus performant à un modèle de référence.
%U https://aclanthology.org/2025.jeptalnrecital-taln.44/
%P 729-740
Markdown (Informal)
[Systèmes d’écriture et qualité des données : l’affinage de modèles de translittération dans un contexte de faibles ressources](https://aclanthology.org/2025.jeptalnrecital-taln.44/) (Strickland et al., JEP/TALN/RECITAL 2025)
ACL