@inproceedings{bezancon-etal-2025-lost-variation,
title = "Lost In Variation : extraction non-supervis{\'e}e de motifs lexico-syntaxiques dans des textes en moyen arabe",
author = {Bezan{\c{c}}on, Julien and
Karam, Rimane and
Lejeune, Ga{\"e}l},
editor = "Bechet, Fr{\'e}d{\'e}ric and
Chifu, Adrian-Gabriel and
Pinel-sauvagnat, Karen and
Favre, Benoit and
Maes, Eliot and
Nurbakova, Diana",
booktitle = "Actes des 32{\`e}me Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : traductions d'articles publi{\'e}s",
month = "6",
year = "2025",
address = "Marseille, France",
publisher = "ATALA {\textbackslash}{\textbackslash}{\&} ARIA",
url = "https://aclanthology.org/2025.jeptalnrecital-trad.20/",
pages = "37--50",
language = "fra",
abstract = "Contrairement {\`a} l{'}arabe standard moderne ou {\`a} certains dialectes de l{'}arabe, le moyen arabe a peu {\'e}t{\'e} {\'e}tudi{\'e} en TAL. Pourtant, cette famille de vari{\'e}t{\'e}s pr{\'e}sente un d{\'e}fi majeur : elle m{\^e}le des traits de standard et des traits de dialecte en plus de poss{\'e}der des caract{\'e}ristiques qui lui sont propres. Nous pr{\'e}sentons ici une m{\'e}thode pour identifier, extraire et classer les variantes de 13 formules du moyen arabe, relev{\'e}es manuellement. Ces formules proviennent des neuf premiers tomes du corpus SIRAT AL-MALIK AL-ZAHIR BAYBARS, un corpus de litt{\'e}rature populaire r{\'e}dig{\'e} dans une vari{\'e}t{\'e} de moyen arabe proche du dialecte damasc{\`e}ne. Nous classons 20 386 s{\'e}quences en se fondant sur leur similarit{\'e} {\`a} plusieurs niveaux avec les formules {\'e}tudi{\'e}es. Ce classement nous permet d{'}observer que ces formules varient sur les plans lexical, morphologique et graphique tout en restant strictement invariables s{\'e}mantiquement et syntaxiquement."
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="bezancon-etal-2025-lost-variation">
<titleInfo>
<title>Lost In Variation : extraction non-supervisée de motifs lexico-syntaxiques dans des textes en moyen arabe</title>
</titleInfo>
<name type="personal">
<namePart type="given">Julien</namePart>
<namePart type="family">Bezançon</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Rimane</namePart>
<namePart type="family">Karam</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Gaël</namePart>
<namePart type="family">Lejeune</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2025-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : traductions d’articles publiés</title>
</titleInfo>
<name type="personal">
<namePart type="given">Frédéric</namePart>
<namePart type="family">Bechet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Adrian-Gabriel</namePart>
<namePart type="family">Chifu</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Karen</namePart>
<namePart type="family">Pinel-sauvagnat</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Benoit</namePart>
<namePart type="family">Favre</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Eliot</namePart>
<namePart type="family">Maes</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Diana</namePart>
<namePart type="family">Nurbakova</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA \textbackslash\textbackslash& ARIA</publisher>
<place>
<placeTerm type="text">Marseille, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Contrairement à l’arabe standard moderne ou à certains dialectes de l’arabe, le moyen arabe a peu été étudié en TAL. Pourtant, cette famille de variétés présente un défi majeur : elle mêle des traits de standard et des traits de dialecte en plus de posséder des caractéristiques qui lui sont propres. Nous présentons ici une méthode pour identifier, extraire et classer les variantes de 13 formules du moyen arabe, relevées manuellement. Ces formules proviennent des neuf premiers tomes du corpus SIRAT AL-MALIK AL-ZAHIR BAYBARS, un corpus de littérature populaire rédigé dans une variété de moyen arabe proche du dialecte damascène. Nous classons 20 386 séquences en se fondant sur leur similarité à plusieurs niveaux avec les formules étudiées. Ce classement nous permet d’observer que ces formules varient sur les plans lexical, morphologique et graphique tout en restant strictement invariables sémantiquement et syntaxiquement.</abstract>
<identifier type="citekey">bezancon-etal-2025-lost-variation</identifier>
<location>
<url>https://aclanthology.org/2025.jeptalnrecital-trad.20/</url>
</location>
<part>
<date>2025-6</date>
<extent unit="page">
<start>37</start>
<end>50</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Lost In Variation : extraction non-supervisée de motifs lexico-syntaxiques dans des textes en moyen arabe
%A Bezançon, Julien
%A Karam, Rimane
%A Lejeune, Gaël
%Y Bechet, Frédéric
%Y Chifu, Adrian-Gabriel
%Y Pinel-sauvagnat, Karen
%Y Favre, Benoit
%Y Maes, Eliot
%Y Nurbakova, Diana
%S Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : traductions d’articles publiés
%D 2025
%8 June
%I ATALA \textbackslash\textbackslash& ARIA
%C Marseille, France
%G fra
%F bezancon-etal-2025-lost-variation
%X Contrairement à l’arabe standard moderne ou à certains dialectes de l’arabe, le moyen arabe a peu été étudié en TAL. Pourtant, cette famille de variétés présente un défi majeur : elle mêle des traits de standard et des traits de dialecte en plus de posséder des caractéristiques qui lui sont propres. Nous présentons ici une méthode pour identifier, extraire et classer les variantes de 13 formules du moyen arabe, relevées manuellement. Ces formules proviennent des neuf premiers tomes du corpus SIRAT AL-MALIK AL-ZAHIR BAYBARS, un corpus de littérature populaire rédigé dans une variété de moyen arabe proche du dialecte damascène. Nous classons 20 386 séquences en se fondant sur leur similarité à plusieurs niveaux avec les formules étudiées. Ce classement nous permet d’observer que ces formules varient sur les plans lexical, morphologique et graphique tout en restant strictement invariables sémantiquement et syntaxiquement.
%U https://aclanthology.org/2025.jeptalnrecital-trad.20/
%P 37-50
Markdown (Informal)
[Lost In Variation : extraction non-supervisée de motifs lexico-syntaxiques dans des textes en moyen arabe](https://aclanthology.org/2025.jeptalnrecital-trad.20/) (Bezançon et al., JEP/TALN/RECITAL 2025)
ACL