Emmanuel Cartier


2018

pdf bib
Néonaute, Enrichissement sémantique pour la recherche d’information ()
Emmanuel Cartier | Loïc Galand | Peter Stirling | Sara Aubry
Actes de la Conférence TALN. Volume 2 - Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT

Avec l’explosion du nombre de documents numériques accessibles, les besoins en outils pour l’enrichissement sémantique des données textuelles, ainsi que des fonctionnalités avancées de recherche et d’exploration des collections, se font sentir. Cette combinaison entre les domaines de la recherche d’information et du traitement automatique des langues est l’une des caractéristiques du projet Néonaute. Ce projet, financé par la DGLFLF 1 en 2017 (appel Langues et numérique), regroupe la Bibliothèque nationale de France (BnF), le LIPN - RCLN (CNRS UMR 7030) et l’Université de Strasbourg (LILPA, EA 1339). Son objectif principal est de doter les observateurs de la langue française d’un moteur de recherche s’appuyant sur une collection de sites de presse d’actualité, collectés automatiquement par la BnF au titre de sa mission de dépôt légal de l’internet. Sur cette collection, le projet vise à proposer un moteur de recherche de nouvelle génération, disposant d’une indexation enrichie par l’analyse automatique des textes (analyse morphosyntaxique, entités nommées, thématiques), d’une part, et d’outils de recherche, d’exploration et de visualisation multidimensionnelle interactive des résultats, d’autre part.

2017

pdf bib
Character Based Pattern Mining for Neology Detection
Gaël Lejeune | Emmanuel Cartier
Proceedings of the First Workshop on Subword and Character Level Models in NLP

Detecting neologisms is essential in real-time natural language processing applications. Not only can it enable to follow the lexical evolution of languages, but it is also essential for updating linguistic resources and parsers. In this paper, neology detection is considered as a classification task where a system has to assess whether a given lexical item is an actual neologism or not. We propose a combination of an unsupervised data mining technique and a supervised machine learning approach. It is inspired by current researches in stylometry and on token-level and character-level patterns. We train and evaluate our system on a manually designed reference dataset in French and Russian. We show that this approach is able to largely outperform state-of-the-art neology detection systems. Furthermore, character-level patterns exhibit good properties for multilingual extensions of the system.

pdf bib
Neoveille, a Web Platform for Neologism Tracking
Emmanuel Cartier
Proceedings of the Software Demonstrations of the 15th Conference of the European Chapter of the Association for Computational Linguistics

This paper details a software designed to track neologisms in seven languages through newspapers monitor corpora. The platform combines state-of-the-art processes to track linguistic changes and a web platform for linguists to create and manage their corpora, accept or reject automatically identified neologisms, describe linguistically the accepted neologisms and follow their lifecycle on the monitor corpora. In the following, after a short state-of-the-art in Neologism Retrieval, Analysis and Life-tracking, we describe the overall architecture of the system. The platform can be freely browsed at www.neoveille.org where detailed presentation is given. Access to the editing modules is available upon request.

2015

pdf bib
Extraction automatique de relations sémantiques dans les dé finitions : approche hybride, construction d’un corpus de relations sémantiques pour le français
Emmanuel Cartier
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Cet article présente une expérimentation visant à construire une ressource sémantique pour le français contemporain à partir d’un corpus d’environ un million de définitions tirées de deux ressources lexicographiques (Trésor de la Langue Française, Wiktionary) et d’une ressource encyclopédique (Wikipedia). L’objectif est d’extraire automatiquement dans les définitions différentes relations sémantiques : hyperonymie, synonymie, méronymie, autres relations sémantiques. La méthode suivie combine la précision des patrons lexico-syntaxiques et le rappel des méthodes statistiques, ainsi qu’un traitement inédit de canonisation et de décomposition des énoncés. Après avoir présenté les différentes approches et réalisations existantes, nous détaillons l’architecture du système et présentons les résultats : environ 900 000 relations d’hyperonymie et près de 100 000 relations de synonymie, avec un taux de précision supérieur à 90% sur un échantillon aléatoire de 500 relations. Plus de 2 millions de prédications définitoires ont également été extraites.

pdf bib
Dictionnaires morphologiques du français contemporain : présentation de Morfetik, éléments d’un modèle pour le TAL
Michel Mathieu-Colas | Emmanuel Cartier | Aude Grezka
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Dans cet article, nous présentons une ressource linguistique, Morfetik, développée au LDI. Après avoir présenté le modèle sous-jacent et spécifié les modalités de sa construction, nous comparons cette ressource avec d’autres ressources du français : le GLAFF, le LEFF, Morphalou et Dicolecte. Nous étudions ensuite la couverture lexicale de ces dictionnaires sur trois corpus, le Wikipedia français, la version française de Wacky et les dix ans du Monde. Nous concluons par un programme de travail permettant de mettre à jour de façon continue la ressource lexicographique du point de vue des formes linguistiques, en connectant la ressource à un corpus continu.

2009

pdf bib
Morfetik, ressource lexicale pour le TAL
Pierre-André Buvet | Emmanuel Cartier | Fabrice Issac | Yassine Madiouni | Michel Mathieu-Colas | Salah Mejri
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Le traitement automatique des langues exige un recensement lexical aussi rigoureux que possible. Dans ce but, nous avons développé un dictionnaire morphologique du français, conçu comme le point de départ d’un système modulaire (Morfetik) incluant un moteur de flexion, des interfaces de consultation et d’interrogation et des outils d’exploitation. Nous présentons dans cet article, après une brève description du dictionnaire de base (lexique des mots simples), quelques-uns des outils informatiques liés à cette ressource : un moteur de recherche des lemmes et des formes fléchies ; un moteur de flexion XML et MySQL ; des outils NLP permettant d’exploiter le dictionnaire ainsi généré ; nous présentons notamment un analyseur linguistique développé dans notre laboratoire. Nous comparons dans une dernière partie Morfetik avec d’autres ressources analogues du français : Morphalou, Lexique3 et le DELAF.

2007

pdf bib
Dictionnaires électroniques et étiquetage syntactico-sémantique
Pierre-André Buvet | Emmanuel Cartier | Fabrice Issac | Salah Mejri
Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Nous présentons dans cet article le prototype d’un système d’étiquetage syntactico-sémantique des mots qui utilise comme principales ressources linguistiques différents dictionnaires du laboratoire Lexiques, Dictionnaires, Informatique (LDI). Dans un premier temps, nous mentionnons des travaux sur le même sujet. Dans un deuxième temps, nous faisons la présentation générale du système. Dans un troisième temps, nous exposons les principales caractéristiques des dictionnaires syntactico-sémantiques utilisés. Dans un quatrième temps, nous détaillons un exemple de traitement.

2003

pdf bib
Demonstration of the CROSSMARC System
Vangelis Karkaletsis | Constantine D. Spyropoulos | Dimitris Souflis | Claire Grover | Ben Hachey | Maria Teresa Pazienza | Michele Vindigni | Emmanuel Cartier | Jose Coch
Companion Volume of the Proceedings of HLT-NAACL 2003 - Demonstrations

2002

pdf bib
Multilingual Summarization by Integrating Linguistic Resources in the MLIS-MUSI Project
Alessandro Lenci | Roberto Bartolini | Nicoletta Calzolari | Ana Agua | Stephan Busemann | Emmanuel Cartier | Karine Chevreau | José Coch
Proceedings of the Third International Conference on Language Resources and Evaluation (LREC’02)