Eleni Kogkitsidou
2022
Automatic Normalisation of Early Modern French
Rachel Bawden
|
Jonathan Poinhos
|
Eleni Kogkitsidou
|
Philippe Gambette
|
Benoît Sagot
|
Simon Gabay
Proceedings of the Thirteenth Language Resources and Evaluation Conference
Spelling normalisation is a useful step in the study and analysis of historical language texts, whether it is manual analysis by experts or automatic analysis using downstream natural language processing (NLP) tools. Not only does it help to homogenise the variable spelling that often exists in historical texts, but it also facilitates the use of off-the-shelf contemporary NLP tools, if contemporary spelling conventions are used for normalisation. We present FREEMnorm, a new benchmark for the normalisation of Early Modern French (from the 17th century) into contemporary French and provide a thorough comparison of three different normalisation methods: ABA, an alignment-based approach and MT-approaches, (both statistical and neural), including extensive parameter searching, which is often missing in the normalisation literature.
2016
L’architecture d’un modèle hybride pour la normalisation de SMS (A hybrid model architecture for SMS normalization)
Eleni Kogkitsidou
|
Georges Antoniadis
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Posters)
La communication par SMS (Short Message Service), aussi bien que tout autre type de communication virtuelle sous forme de textes courts (mails, microblogs, tweets, etc.), présente certaines particularités spécifiques (syntaxe irrégulière, fusionnement et phonétisation de mots, formes abrégées, etc.). A cause de ces caractéristiques, l’application d’outils en Traitement Automatique du Langage (TAL) rend difficile l’exploitation d’informations utiles contenues dans des messages bruités. Nous proposons un modèle de normalisation en deux étapes fondé sur une approche symbolique et statistique. La première partie vise à produire une représentation intermédiaire du message SMS par l’application des grammaires locales, tandis que la deuxième utilise un système de traduction automatique à base de règles pour convertir la représentation intermédiaire vers une forme standard.
Search
Co-authors
- Georges Antoniadis 1
- Rachel Bawden 1
- Jonathan Poinhos 1
- Philippe Gambette 1
- Benoît Sagot 1
- show all...