Lost In Variation : extraction non-supervisée de motifs lexico-syntaxiques dans des textes en moyen arabe

Julien Bezançon, Rimane Karam, Gaël Lejeune


Abstract
Contrairement à l’arabe standard moderne ou à certains dialectes de l’arabe, le moyen arabe a peu été étudié en TAL. Pourtant, cette famille de variétés présente un défi majeur : elle mêle des traits de standard et des traits de dialecte en plus de posséder des caractéristiques qui lui sont propres. Nous présentons ici une méthode pour identifier, extraire et classer les variantes de 13 formules du moyen arabe, relevées manuellement. Ces formules proviennent des neuf premiers tomes du corpus SIRAT AL-MALIK AL-ZAHIR BAYBARS, un corpus de littérature populaire rédigé dans une variété de moyen arabe proche du dialecte damascène. Nous classons 20 386 séquences en se fondant sur leur similarité à plusieurs niveaux avec les formules étudiées. Ce classement nous permet d’observer que ces formules varient sur les plans lexical, morphologique et graphique tout en restant strictement invariables sémantiquement et syntaxiquement.
Anthology ID:
2025.jeptalnrecital-trad.20
Volume:
Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : traductions d'articles publiés
Month:
6
Year:
2025
Address:
Marseille, France
Editors:
Frédéric Bechet, Adrian-Gabriel Chifu, Karen Pinel-sauvagnat, Benoit Favre, Eliot Maes, Diana Nurbakova
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA \\& ARIA
Note:
Pages:
37–50
Language:
French
URL:
https://aclanthology.org/2025.jeptalnrecital-trad.20/
DOI:
Bibkey:
Cite (ACL):
Julien Bezançon, Rimane Karam, and Gaël Lejeune. 2025. Lost In Variation : extraction non-supervisée de motifs lexico-syntaxiques dans des textes en moyen arabe. In Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : traductions d'articles publiés, pages 37–50, Marseille, France. ATALA \\& ARIA.
Cite (Informal):
Lost In Variation : extraction non-supervisée de motifs lexico-syntaxiques dans des textes en moyen arabe (Bezançon et al., JEP/TALN/RECITAL 2025)
Copy Citation:
PDF:
https://aclanthology.org/2025.jeptalnrecital-trad.20.pdf