2024
pdf
bib
abs
Should Cross-Lingual AMR Parsing go Meta? An Empirical Assessment of Meta-Learning and Joint Learning AMR Parsing
Jeongwoo Kang
|
Maximin Coavoux
|
Cédric Lopez
|
Didier Schwab
Findings of the Association for Computational Linguistics: EMNLP 2024
Cross-lingual AMR parsing is the task of predicting AMR graphs in a target language when training data is available only in a source language. Due to the small size of AMR training data and evaluation data, cross-lingual AMR parsing has only been explored in a small set of languages such as English, Spanish, German, Chinese, and Italian. Taking inspiration from Langedijk et al. (2022), who apply meta-learning to tackle cross-lingual syntactic parsing, we investigate the use of meta-learning for cross-lingual AMR parsing. We evaluate our models in k-shot scenarios (including 0-shot) and assess their effectiveness in Croatian, Farsi, Korean, Chinese, and French. Notably, Korean and Croatian test sets are developed as part of our work, based on the existing The Little Prince English AMR corpus, and made publicly available. We empirically study our method by comparing it to classical joint learning. Our findings suggest that while the meta-learning model performs slightly better in 0-shot evaluation for certain languages, the performance gain is minimal or absent when k is higher than 0.
pdf
bib
abs
Méta-apprentissage pour l’analyse AMR translingue
Jeongwoo Kang
|
Maximin Coavoux
|
Cédric Lopez
|
Didier Schwab
Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position
L’analyse AMR multilingue consiste à prédire des analyses sémantiques AMR dans une langue cible lorsque les données d’entraînement ne sont disponibles que dans une langue source. Cette tâche n’a été étudiée que pour un petit nombre de langues en raison du manque de données multilingues. En s’inspirant de Langedijk et al. (2022), qui appliquent le méta-apprentissage à l’analyse syntaxique en dépendances translingue, nous étudions le méta-apprentissage pour l’analyse AMR translingue. Nous évaluons nos modèles dans des scénarios zero-shot et few-shot en croate, en farsi, en coréen, en chinois et en français. En particulier, nous développons dans le cadre de cet article des données d’évaluation en coréen et en croate, à partir du corpus AMR anglais Le Petit Prince. Nous étudions empiriquement cette approche en la comparant à une méthode classique d’apprentissage conjoint.
2023
pdf
bib
abs
Analyse sémantique AMR pour le français par transfert translingue
Jeongwoo Kang
|
Maximin Coavoux
|
Didier Schwab
|
Cédric Lopez
Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : travaux de recherche originaux -- articles courts
Abstract Meaning Representation (AMR) est un formalisme permettant de représenter la sémantique d’une phrase sous la forme d’un graphe, dont les nœuds sont des concepts sémantiques et les arcs des relations typées. Dans ce travail, nous construisons un analyseur AMR pour le français en étendant une méthode translingue zéro-ressource proposée par Procopio et al. (2021). Nous comparons l’utilisation d’un transfert bilingue à un transfert multi-cibles pour l’analyse sémantique AMR translingue. Nous construisons également des données d’évaluation pour l’AMR français. Nous présentons enfin les premiers résultats d’analyse AMR automatique pour le français. Selon le jeu de test utilisé, notre parseur AMR entraîné de manière zéro-ressource, c’est-à-dire sans données d’entraînement, obtient des scores Smatch qui se situent entre 54,2 et 66,0.
pdf
bib
abs
DWIE-FR : Un nouveau jeu de données en français annoté en entités nommées
Sylvain Verdy
|
Maxime Prieur
|
Guillaume Gadek
|
Cédric Lopez
Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : travaux de recherche originaux -- articles courts
Ces dernières années, les contributions majeures qui ont eu lieu en apprentissage automatique supervisé ont mis en evidence la nécessité de disposer de grands jeux de données annotés de haute qualité. Les recherches menées sur la tâche de reconnaissance d’entités nommées dans des textes en français font face à l’absence de jeux de données annotés “à grande échelle” et avec de nombreuses classes d’entités hiérarchisées. Dans cet article, nous proposons une approche pour obtenir un tel jeu de données qui s’appuie sur des étapes de traduction puis d’annotation des données textuelles en anglais vers une langue cible (ici au français). Nous évaluons la qualité de l’approche proposée et mesurons les performances de quelques modèles d’apprentissage automatique sur ces données.
pdf
bib
abs
MR4AP: Meaning Representation for Application Purposes
Bastien Giordano
|
Cédric Lopez
Proceedings of the Fourth International Workshop on Designing Meaning Representations
Despite the significant progress made in Natural Language Processing (NLP) thanks to deep learning techniques, efforts are still needed to model explicit, factual, and accurate meaning representation formalisms. In this article, we present a comparative table of ten formalisms that have been proposed over the last thirty years, and we describe and put forth our own, Meaning Representation for Application Purposes (MR4AP), developed in an industrial context with a definitive applicative aim.
2020
pdf
bib
abs
A Dataset for Anaphora Analysis in French Emails
Hani Guenoune
|
Kevin Cousot
|
Mathieu Lafourcade
|
Melissa Mekaoui
|
Cédric Lopez
Proceedings of the Third Workshop on Computational Models of Reference, Anaphora and Coreference
In 2019, about 293 billion emails were sent worldwide every day. They are a valuable source of information and knowledge for professionals. Since the 90’s, many studies have been done on emails and have highlighted the need for resources regarding numerous NLP tasks. Due to the lack of available resources for French, very few studies on emails have been conducted. Anaphora resolution in emails is an unexplored area, annotated resources are needed, at least to answer a first question: Does email communication have specifics that must be addressed to tackle the anaphora resolution task? In order to answer this question 1) we build a French emails corpus composed of 100 anonymized professional threads and make it available freely for scientific exploitation. 2) we provide annotations of anaphoric links in the email collection.
2017
pdf
bib
abs
Typologies pour l’annotation de textes non standard en français (Typologies for the annotation of non-standard French texts)
Louise Tarrade
|
Cédric Lopez
|
Rachel Panckhurst
|
Geroges Antoniadis
Actes des 24ème Conférence sur le Traitement Automatique des Langues Naturelles. Volume 2 - Articles courts
La tâche de normalisation automatique des messages issus de la communication électronique médiée requiert une étape préalable consistant à identifier les phénomènes linguistiques. Dans cet article, nous proposons deux typologies pour l’annotation de textes non standard en français, relevant respectivement des niveaux morpho-lexical et morpho-syntaxique. Ces typologies ont été développées en conciliant les typologies existantes et en les faisant évoluer en parallèle d’une annotation manuelle de tweets et de SMS.
2016
pdf
bib
abs
Comparing Named-Entity Recognizers in a Targeted Domain: Handcrafted Rules vs Machine Learning
Ioannis Partalas
|
Cédric Lopez
|
Frédérique Segond
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Posters)
Comparing Named-Entity Recognizers in a Targeted Domain : Handcrafted Rules vs. Machine Learning Named-Entity Recognition concerns the classification of textual objects in a predefined set of categories such as persons, organizations, and localizations. While Named-Entity Recognition is well studied since 20 years, the application to specialized domains still poses challenges for current systems. We developed a rule-based system and two machine learning approaches to tackle the same task : recognition of product names, brand names, etc., in the domain of Cosmetics, for French. Our systems can thus be compared under ideal conditions. In this paper, we introduce both systems and we compare them.
pdf
bib
abs
Learning to Search for Recognizing Named Entities in Twitter
Ioannis Partalas
|
Cédric Lopez
|
Nadia Derbas
|
Ruslan Kalitvianski
Proceedings of the 2nd Workshop on Noisy User-generated Text (WNUT)
We presented in this work our participation in the 2nd Named Entity Recognition for Twitter shared task. The task has been cast as a sequence labeling one and we employed a learning to search approach in order to tackle it. We also leveraged LOD for extracting rich contextual features for the named-entities. Our submission achieved F-scores of 46.16 and 60.24 for the classification and the segmentation tasks and ranked 2nd and 3rd respectively. The post-analysis showed that LOD features improved substantially the performance of our system as they counter-balance the lack of context in tweets. The shared task gave us the opportunity to test the performance of NER systems in short and noisy textual data. The results of the participated systems shows that the task is far to be considered as a solved one and methods with stellar performance in normal texts need to be revised.
pdf
bib
abs
Encoding Adjective Scales for Fine-grained Resources
Cédric Lopez
|
Frédérique Segond
|
Christiane Fellbaum
Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16)
We propose an automatic approach towards determining the relative location of adjectives on a common scale based on their strength. We focus on adjectives expressing different degrees of goodness occurring in French product (perfumes) reviews. Using morphosyntactic patterns, we extract from the reviews short phrases consisting of a noun that encodes a particular aspect of the perfume and an adjective modifying that noun. We then associate each such n-gram with the corresponding product aspect and its related star rating. Next, based on the star scores, we generate adjective scales reflecting the relative strength of specific adjectives associated with a shared attribute of the product. An automatic ordering of the adjectives “correct” (correct), “sympa” (nice), “bon” (good) and “excellent” (excellent) according to their score in our resource is consistent with an intuitive scale based on human judgments. Our long-term objective is to generate different adjective scales in an empirical manner, which could allow the enrichment of lexical resources.
2015
pdf
bib
abs
Un système expert fondé sur une analyse sémantique pour l’identification de menaces d’ordre biologique
Cédric Lopez
|
Aleksandra Ponomareva
|
Cécile Robin
|
André Bittar
|
Xabier Larrucea
|
Frédérique Segond
|
Marie-Hélène Metzger
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations
Le projet européen TIER (Integrated strategy for CBRN – Chemical, Biological, Radiological and Nuclear – Threat Identification and Emergency Response) vise à intégrer une stratégie complète et intégrée pour la réponse d’urgence dans un contexte de dangers biologiques, chimiques, radiologiques, nucléaires, ou liés aux explosifs, basée sur l’identification des menaces et d’évaluation des risques. Dans cet article, nous nous focalisons sur les risques biologiques. Nous présentons notre système expert fondé sur une analyse sémantique, permettant l’extraction de données structurées à partir de données non structurées dans le but de raisonner.
2014
pdf
bib
abs
Generating a Resource for Products and Brandnames Recognition. Application to the Cosmetic Domain.
Cédric Lopez
|
Frédérique Segond
|
Olivier Hondermarck
|
Paolo Curtoni
|
Luca Dini
Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)
Named Entity Recognition task needs high-quality and large-scale resources. In this paper, we present RENCO, a based-rules system focused on the recognition of entities in the Cosmetic domain (brandnames, product names, â¦). RENCO has two main objectives: 1) Generating resources for named entity recognition; 2) Mining new named entities relying on the previous generated resources. In order to build lexical resources for the cosmetic domain, we propose a system based on local lexico-syntactic rules complemented by a learning module. As the outcome of the system, we generate both a simple lexicon and a structured lexicon. Results of the evaluation show that even if RENCO outperforms a classic Conditional Random Fields algorithm, both systems should combine their respective strengths.
pdf
bib
abs
Towards Electronic SMS Dictionary Construction: An Alignment-based Approach
Cédric Lopez
|
Reda Bestandji
|
Mathieu Roche
|
Rachel Panckhurst
Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)
In this paper, we propose a method for aligning text messages (entitled AlignSMS) in order to automatically build an SMS dictionary. An extract of 100 text messages from the 88milSMS corpus (Panckhurst el al., 2013, 2014) was used as an initial test. More than 90,000 authentic text messages in French were collected from the general public by a group of academics in the south of France in the context of the sud4science project (
http://www.sud4science.org). This project is itself part of a vast international SMS data collection project, entitled sms4science (
http://www.sms4science.org, Fairon et al. 2006, Cougnon, 2014). After corpus collation, pre-processing and anonymisation (Accorsi et al., 2012, Patel et al., 2013), we discuss how raw anonymised text messages can be transcoded into normalised text messages, using a statistical alignment method. The future objective is to set up a hybrid (symbolic/statistic) approach based on both grammar rules and our statistical AlignSMS method.
2012
pdf
bib
NOMIT: Automatic Titling by Nominalizing
Cédric Lopez
|
Violaine Prince
|
Mathieu Roche
Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies
pdf
bib
Just Title It! (by an Online Application)
Cédric Lopez
|
Violaine Prince
|
Mathieu Roche
Proceedings of the Demonstrations at the 13th Conference of the European Chapter of the Association for Computational Linguistics
2011
pdf
bib
abs
Approche de construction automatique de titres courts par des méthodes de Fouille du Web (An automatic short title construction approach by web mining methods)
Cédric Lopez
|
Mathieu Roche
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Le titrage automatique de documents textuels est une tâche essentielle pour plusieurs applications (titrage de mails, génération automatique de sommaires, synthèse de documents, etc.). Cette étude présente une méthode de construction de titres courts appliquée à un corpus d’articles journalistiques via des méthodes de Fouille du Web. Il s’agit d’une première étape cruciale dans le but de proposer une méthode de construction de titres plus complexes. Dans cet article, nous présentons une méthode proposant des titres tenant compte de leur cohérence par rapport au texte, par rapport au Web, ainsi que de leur contexte dynamique. L’évaluation de notre approche indique que nos titres construits automatiquement sont informatifs et/ou accrocheurs.
pdf
bib
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues
Cédric Lopez
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues
pdf
bib
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (articles courts)
Cédric Lopez
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (articles courts)
pdf
bib
Automatic titling of Articles Using Position and Statistical Information
Cédric Lopez
|
Violaine Prince
|
Mathieu Roche
Proceedings of the International Conference Recent Advances in Natural Language Processing 2011