Aude Grezka
2015
Dictionnaires morphologiques du français contemporain : présentation de Morfetik, éléments d’un modèle pour le TAL
Michel Mathieu-Colas
|
Emmanuel Cartier
|
Aude Grezka
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Dans cet article, nous présentons une ressource linguistique, Morfetik, développée au LDI. Après avoir présenté le modèle sous-jacent et spécifié les modalités de sa construction, nous comparons cette ressource avec d’autres ressources du français : le GLAFF, le LEFF, Morphalou et Dicolecte. Nous étudions ensuite la couverture lexicale de ces dictionnaires sur trois corpus, le Wikipedia français, la version française de Wacky et les dix ans du Monde. Nous concluons par un programme de travail permettant de mettre à jour de façon continue la ressource lexicographique du point de vue des formes linguistiques, en connectant la ressource à un corpus continu.
2012
Building a database of French frozen adverbial phrases
Aude Grezka
|
Céline Poudat
Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12)
The present paper gives an account of the approach we have led so far to build a database of frozen units. Although it has long been absent from linguistic studies and grammatical tradition, linguistic frozenness is currently a major research issue for linguistic studies, as frozen markers ensure the economy of the language system. The objective of our study is twofold: we first aim to build a comprehensive database of completely frozen units for the French language ― what is traditionally called absolute or total frozenness. We started the project with the description of adverbial units ― in the long term, we will also naturally describe adjectival, verbal and nominal phrases ― and we will first present the database we have developed so far. This first objective is necessarily followed by the second one, which aims to assess the frozenness degree of the other units (i.e. relative frozenness). In this perspective, we resorted to two sets of methods: linguistic tests and statistical methods processed on two corpora (political and scientific discourse).
Search