@inproceedings{solfrini-etal-2025-normaliser,
title = "Normaliser le moyen fran{\c{c}}ais : du graph{\'e}matique au semi-diplomatique",
author = "Solfrini, Sonia and
Dejouy, Myl{\`e}ne and
Marques Oliveira, Aur{\'e}lia and
Beaulnes, Pierre-Olivier",
editor = "Bechet, Fr{\'e}d{\'e}ric and
Chifu, Adrian-Gabriel and
Pinel-sauvagnat, Karen and
Favre, Benoit and
Maes, Eliot and
Nurbakova, Diana",
booktitle = "Actes des 18e Rencontres Jeunes Chercheurs en RI (RJCRI) et 27{\`e}me Rencontre des {\'E}tudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL)",
month = "6",
year = "2025",
address = "Marseille, France",
publisher = "ATALA {\textbackslash}{\textbackslash}{\&} ARIA",
url = "https://aclanthology.org/2025.jeptalnrecital-recital.13/",
pages = "239--252",
language = "fra",
abstract = "La pr{\'e}-{\'e}ditorialisation des documents anciens, comprise comme une automatisation partielle de la pr{\'e}paration {\'e}ditoriale des donn{\'e}es textuelles, est r{\'e}cemment devenue l{'}un des nouveaux fronts de la recherche en philologie computationnelle. Dans un premier temps, nous d{\'e}finissons cette t{\^a}che de TAL (Traitement Automatique du Langage) pour le moyen fran{\c{c}}ais et la pla{\c{c}}ons dans une cha{\^i}ne de traitement num{\'e}rique qui permet la cr{\'e}ation de donn{\'e}es machine-actionable, depuis les sorties de l{'}OCR (Optical Character Recognition). Ensuite, nous pr{\'e}sentons et rendons disponible un ensemble de donn{\'e}es d{'}environ 40 000 lignes, tir{\'e}es d{'}un corpus d{'}imprim{\'e}s du XVIesi{\`e}cle, ainsi que les r{\`e}gles de normalisation semi-diplomatique qui ont guid{\'e} la pr{\'e}paration des donn{\'e}es. Enfin, nous proposons un premier mod{\`e}le de normalisation automatique, afin de confirmer la faisabilit{\'e} de la t{\^a}che."
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="solfrini-etal-2025-normaliser">
<titleInfo>
<title>Normaliser le moyen français : du graphématique au semi-diplomatique</title>
</titleInfo>
<name type="personal">
<namePart type="given">Sonia</namePart>
<namePart type="family">Solfrini</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Mylène</namePart>
<namePart type="family">Dejouy</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Aurélia</namePart>
<namePart type="family">Marques Oliveira</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Pierre-Olivier</namePart>
<namePart type="family">Beaulnes</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2025-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes des 18e Rencontres Jeunes Chercheurs en RI (RJCRI) et 27ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL)</title>
</titleInfo>
<name type="personal">
<namePart type="given">Frédéric</namePart>
<namePart type="family">Bechet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Adrian-Gabriel</namePart>
<namePart type="family">Chifu</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Karen</namePart>
<namePart type="family">Pinel-sauvagnat</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Benoit</namePart>
<namePart type="family">Favre</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Eliot</namePart>
<namePart type="family">Maes</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Diana</namePart>
<namePart type="family">Nurbakova</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA \textbackslash\textbackslash& ARIA</publisher>
<place>
<placeTerm type="text">Marseille, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>La pré-éditorialisation des documents anciens, comprise comme une automatisation partielle de la préparation éditoriale des données textuelles, est récemment devenue l’un des nouveaux fronts de la recherche en philologie computationnelle. Dans un premier temps, nous définissons cette tâche de TAL (Traitement Automatique du Langage) pour le moyen français et la plaçons dans une chaîne de traitement numérique qui permet la création de données machine-actionable, depuis les sorties de l’OCR (Optical Character Recognition). Ensuite, nous présentons et rendons disponible un ensemble de données d’environ 40 000 lignes, tirées d’un corpus d’imprimés du XVIesiècle, ainsi que les règles de normalisation semi-diplomatique qui ont guidé la préparation des données. Enfin, nous proposons un premier modèle de normalisation automatique, afin de confirmer la faisabilité de la tâche.</abstract>
<identifier type="citekey">solfrini-etal-2025-normaliser</identifier>
<location>
<url>https://aclanthology.org/2025.jeptalnrecital-recital.13/</url>
</location>
<part>
<date>2025-6</date>
<extent unit="page">
<start>239</start>
<end>252</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Normaliser le moyen français : du graphématique au semi-diplomatique
%A Solfrini, Sonia
%A Dejouy, Mylène
%A Marques Oliveira, Aurélia
%A Beaulnes, Pierre-Olivier
%Y Bechet, Frédéric
%Y Chifu, Adrian-Gabriel
%Y Pinel-sauvagnat, Karen
%Y Favre, Benoit
%Y Maes, Eliot
%Y Nurbakova, Diana
%S Actes des 18e Rencontres Jeunes Chercheurs en RI (RJCRI) et 27ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL)
%D 2025
%8 June
%I ATALA \textbackslash\textbackslash& ARIA
%C Marseille, France
%G fra
%F solfrini-etal-2025-normaliser
%X La pré-éditorialisation des documents anciens, comprise comme une automatisation partielle de la préparation éditoriale des données textuelles, est récemment devenue l’un des nouveaux fronts de la recherche en philologie computationnelle. Dans un premier temps, nous définissons cette tâche de TAL (Traitement Automatique du Langage) pour le moyen français et la plaçons dans une chaîne de traitement numérique qui permet la création de données machine-actionable, depuis les sorties de l’OCR (Optical Character Recognition). Ensuite, nous présentons et rendons disponible un ensemble de données d’environ 40 000 lignes, tirées d’un corpus d’imprimés du XVIesiècle, ainsi que les règles de normalisation semi-diplomatique qui ont guidé la préparation des données. Enfin, nous proposons un premier modèle de normalisation automatique, afin de confirmer la faisabilité de la tâche.
%U https://aclanthology.org/2025.jeptalnrecital-recital.13/
%P 239-252
Markdown (Informal)
[Normaliser le moyen français : du graphématique au semi-diplomatique](https://aclanthology.org/2025.jeptalnrecital-recital.13/) (Solfrini et al., JEP/TALN/RECITAL 2025)
ACL
- Sonia Solfrini, Mylène Dejouy, Aurélia Marques Oliveira, and Pierre-Olivier Beaulnes. 2025. Normaliser le moyen français : du graphématique au semi-diplomatique. In Actes des 18e Rencontres Jeunes Chercheurs en RI (RJCRI) et 27ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL), pages 239–252, Marseille, France. ATALA \\& ARIA.