Laura Monceaux - ACL Anthology

Laura Monceaux

2025

Le rôle du contexte dans la classification séquentielle de phrases pour les documents longs
Anas Belfathi | Nicolas Hernandez | Laura Monceaux | Richard Dufour
Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux

La classification séquentielle de phrases étend la classification traditionnelle en intégrant un contexte plus large. Cependant, les approches de pointe rencontrent deux défis majeurs dans le traitement automatique des documents longs : les modèles de langue préentraînés sont limités par des contraintes de longueur d’entrée, tandis que les modèles hiérarchiques proposés introduisent souvent du contenu non pertinent. Nous proposons une approche de recherche d’information au niveau du document visant à extraire uniquement le contexte le plus pertinent. Nous introduisons deux types d’heuristiques : Séquentiel , qui capture l’information locale, et Sélectif, qui sélectionne les phrases les plus sémantiquement similaires. Nos expériences sur trois corpus juridiques en anglais montrent que ces heuristiques améliorent les performances. Les heuristiques séquentielles surpassent les modèles hiérarchiques sur deux des trois jeux de données. démontrant l’apport du contexte ciblé.

A Simple but Effective Context Retrieval for Sequential Sentence Classification in Long Legal Documents
Anas Belfathi | Nicolas Hernandez | Laura Monceaux | Richard Dufour
Proceedings of the 12th Argument mining Workshop

Sequential sentence classification extends traditional classification, especially useful when dealing with long documents. However, state-of-the-art approaches face two major challenges: pre-trained language models struggle with input-length constraints, while proposed hierarchical models often introduce irrelevant content. To address these limitations, we propose a simple and effective document-level retrieval approach that extracts only the most relevant context. Specifically, we introduce two heuristic strategies: Sequential, which captures local information, and Selective, which retrieves the semantically similar sentences. Experiments on legal domain datasets show that both heuristics lead to consistent improvements over the baseline, with an average increase of ∼5.5 weighted-F1 points. Sequential heuristics outperform hierarchical models on two out of three datasets, with gains of up to ∼1.5, demonstrating the benefits of targeted context.

2024

Adaptation des modèles de langue à des domaines de spécialité par un masquage sélectif fondé sur le genre et les caractéristiques thématiques
Anas Belfathi | Ygor Gallina | Nicolas Hernandez | Laura Monceaux | Richard Dufour
Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position

Les modèles de langue pré-entraînés ont permis de réaliser des avancées significatives dans diverses tâches de traitement automatique du langage naturel (TALN).Une des caractéristiques des modèles reposant sur une architecture Transformeur concerne la stratégie de masquage utilisée pour capturer les relations syntaxiques et sémantiques inhérentes à une langue. Dans les architectures de type encodeur, comme par exemple BERT, les mots à masquer sont choisis aléatoirement. Cette stratégie ne tient néanmoins pas compte des caractéristiques linguistiques spécifiques à un domaine.Dans ce travail, nous proposons de réaliser un masquage sélectif des mots en fonction de leur saillance thématique dans les documents dans lesquels ils se produisent et de leur spécificité au genre de document.Les performances des modèles résultant d’un pré-entraînement continu dans le domaine juridique soulignent l’efficacité de notre approche sur le benchmark LexGLUE en langue anglaise.

2018

DEFT2018 : recherche d’information et analyse de sentiments dans des tweets concernant les transports en Île de France (DEFT2018 : Information Retrieval and Sentiment Analysis in Tweets about Public Transportation in Île de France Region )
Patrick Paroubek | Cyril Grouin | Patrice Bellot | Vincent Claveau | Iris Eshkol-Taravella | Amel Fraisse | Agata Jackiewicz | Jihen Karoui | Laura Monceaux | Juan-Manuel Torres-Moreno
Actes de la Conférence TALN. Volume 2 - Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT

Cet article présente l’édition 2018 de la campagne d’évaluation DEFT (Défi Fouille de Textes). A partir d’un corpus de tweets, quatre tâches ont été proposées : identifier les tweets sur la thématique des transports, puis parmi ces derniers, identifier la polarité (négatif, neutre, positif, mixte), identifier les marqueurs de sentiment et la cible, et enfin, annoter complètement chaque tweet en source et cible des sentiments exprimés. Douze équipes ont participé, majoritairement sur les deux premières tâches. Sur l’identification de la thématique des transports, la micro F-mesure varie de 0,827 à 0,908. Sur l’identification de la polarité globale, la micro F-mesure varie de 0,381 à 0,823.

2016

Evaluating Lexical Similarity to build Sentiment Similarity
Grégoire Jadi | Vincent Claveau | Béatrice Daille | Laura Monceaux
Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16)

In this article, we propose to evaluate the lexical similarity information provided by word representations against several opinion resources using traditional Information Retrieval tools. Word representation have been used to build and to extend opinion resources such as lexicon, and ontology and their performance have been evaluated on sentiment analysis tasks. We question this method by measuring the correlation between the sentiment proximity provided by opinion resources and the semantic similarity provided by word representations using different correlation coefficients. We also compare the neighbors found in word representations and list of similar opinion words. Our results show that the proximity of words in state-of-the-art word representations is not very effective to build sentiment similarity.

Extraction d’expressions-cibles de l’opinion : de l’anglais au français (Opinion Target Expression extraction : from English to French)
Grégoire Jadi | Laura Monceaux | Vincent Claveau | Béatrice Daille
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Posters)

Dans cet article, nous présentons le développement d’un système d’extraction d’expressions-cibles pour l’anglais et sa transposition au français. En complément, nous avons réalisé une étude de l’efficacité des traits en anglais et en français qui tend à montrer qu’il est possible de réaliser un système d’extraction d’expressions-cibles indépendant du domaine. Pour finir, nous proposons une analyse comparative des erreurs commises par nos systèmes en anglais et français et envisageons différentes solutions à ces problèmes.

2011

Identifier la cible d’un passage d’opinion dans un corpus multithématique (Identifying the target of an opinion transition in a thematic corpus)
Matthieu Vernier | Laura Monceaux | Béatrice Daille
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

L’identification de la cible d’une d’opinion fait l’objet d’une attention récente en fouille d’opinion. Les méthodes existantes ont été testées sur des corpus monothématiques en anglais. Elles permettent principalement de traiter les cas où la cible se situe dans la même phrase que l’opinion. Dans cet article, nous abordons cette problématique pour le français dans un corpus multithématique et nous présentons une nouvelle méthode pour identifier la cible d’une opinion apparaissant hors du contexte phrastique. L’évaluation de la méthode montre une amélioration des résultats par rapport à l’existant.

TTC TermSuite : une chaîne de traitement pour la fouille terminologique multilingue (TTC TermSuite: a processing chain for multilingual terminology mining)
Béatrice Daille | Christine Jacquin | Laura Monceaux | Emmanuel Morin | Jérome Rocheteau
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations

2010

Learning Subjectivity Phrases missing from Resources through a Large Set of Semantic Tests
Matthieu Vernier | Laura Monceaux | Béatrice Daille
Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC'10)

In recent years, blogs and social networks have particularly boosted interests for opinion mining research. In order to satisfy real-scale applicative needs, a main task is to create or to enhance lexical and semantic resources on evaluative language. Classical resources of the area are mostly built for english, they contain simple opinion word markers and are far to cover the lexical richness of this linguistic phenomenon. In particular, infrequent subjective words, idiomatic expressions, and cultural stereotypes are missing from resources. We propose a new method, applied on french, to enhance automatically an opinion word lexicon. This learning method relies on linguistic uses of internet users and on semantic tests to infer the degree of subjectivity of many new adjectives, nouns, verbs, noun phrases, verbal phrases which are usually forgotten by other resources. The final appraisal lexicon contains 3,456 entries. We evaluate the lexicon enhancement with and without textual context.

Enrichissement d’un lexique de termes subjectifs à partir de tests sémantiques [Enhancement of a subjective word lexicon by semantic tests]
Matthieu Vernier | Laura Monceaux
Traitement Automatique des Langues, Volume 51, Numéro 1 : Varia [Varia]

2009

Catégorisation sémantico-discursive des évaluations exprimées dans la blogosphère
Matthieu Vernier | Laura Monceaux | Béatrice Daille | Estelle Dubreil
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Les blogs constituent un support d’observations idéal pour des applications liées à la fouille d’opinion. Toutefois, ils imposent de nouvelles problématiques et de nouveaux défis au regard des méthodes traditionnelles du domaine. De ce fait, nous proposons une méthode automatique pour la détection et la catégorisation des évaluations localement exprimées dans un corpus de blogs multi-domaine. Celle-ci rend compte des spécificités du langage évaluatif décrites dans deux théories linguistiques. L’outil développé au sein de la plateforme UIMA vise d’une part à construire automatiquement une grammaire du langage évaluatif, et d’autre part à utiliser cette grammaire pour la détection et la catégorisation des passages évaluatifs d’un texte. La catégorisation traite en particulier l’aspect axiologique de l’évaluation, sa configuration d’énonciation et sa modalité dans le discours.

2006

FRASQUES: A Question Answering system in the EQueR evaluation campaign
Brigitte Grau | Anne-Laure Ligozat | Isabelle Robba | Anne Vilnat | Laura Monceaux
Proceedings of the Fifth International Conference on Language Resources and Evaluation (LREC’06)

Question-answering (QA) systems aim at providing either a small passage or just the answer to a question in natural language. We have developed several QA systems that work on both English and French. This way, we are able to provide answers to questions given in both languages by searching documents in both languages also. In this article, we present our French monolingual system FRASQUES which participated in the EQueR evaluation campaign of QA systems for French in 2004. First, the QA architecture common to our systems is shown. Then, for every step of the QA process, we consider which steps are language-independent, and for those that are language-dependent, the tools or processes that need to be adapted to switch for one language to another. Finally, our results at EQueR are given and commented; an error analysis is conducted, and the kind of knowledge needed to answer a question is studied.

Systèmes question-réponse et EuroWordNet
Christine Jacquin | Laura Monceaux | Emmanuel Desmontils
Actes de la 13ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Pour améliorer l’efficacité des systèmes de recherche d’informations précises, l’utilisation de connaissances sémantiques est nécessaire. Cependant pour le français, les outils de connaissances sémantiques telles les thesaurus sur domaine ouvert ne sont d’une part pas très nombreux et d’autre part pas suffisamment complets. Dans cet article, nous expliquons premièrement, l’intérêt de l’utilisation de connaissances sémantiques pour un système de question réponse. Puis, nous présentons le thesaurus EuroWordNet, notamment ses limites et les améliorations que nous avons effectuées pour la base française dans un souci de le rendre plus satisfaisant pour notre application par l’ajout de relations inexistantes entre concepts et de définitions par le biais de l’encyclopédieWikipedia (2006).

2004

The Ongoing Evaluation Campaign of Syntactic Parsing of French: EASY
Anne Vilnat | Patrick Paroubek | Laura Monceaux | Isabelle Robba | Véronique Gendner | Gabriel Illouz | Michèle Jardino
Proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC’04)

This paper presents EASY (Evaluation of Analyzers of SYntax), an ongoing evaluation campaign of syntactic parsing of French, a subproject of EVALDA in the French TECHNOLANGUE program. After presenting the elaboration of the annotation formalism, we describe the corpus building steps, the annotation tools, the evaluation measures and finally, plans to produce a validated large linguistic resource, syntactically annotated

Annoter en constituants pour évaluer des analyseurs syntaxiques
Anne Vilnat | Laura Monceaux | Patrick Paroubek | Isabelle Robba | Véronique Gendner | Gabriel Illouz | Michèle Jardino
Actes de la 11ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Cet article présente l’annotation en constituants menée dans le cadre d’un protocole d’évaluation des analyseurs syntaxiques (mis au point dans le pré-projet PEAS, puis dans le projet EASY). Le choix des constituants est décrit en détail et une première évaluation effectuée à partir des résultats de deux analyseurs est donnée.

2003

PEAS, the first instantiation of a comparative framework for evaluating parsers of French
Véronique Gendner | Gabriel Illouz | Michèle Jardino | Laura Monceaux | Patrick Paroubek | Isabelle Robba | Anne Vilnat
10th Conference of the European Chapter of the Association for Computational Linguistics

Confronter des sources de connaissances différentes pour obtenir une réponse plus fiable
Gaël de Chalendar | Faïza El Kateb | Olivier Ferret | Brigitte Grau | Martine Hurault-Plantet | Laura Monceaux | Isabelle Robba | Anne Vilnat
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

La fiabilité des réponses qu’il propose, ou un moyen de l’estimer, est le meilleur atout d’un système de question-réponse. A cette fin, nous avons choisi d’effectuer des recherches dans des ensembles de documents différents et de privilégier des résultats qui sont trouvés dans ces différentes sources. Ainsi, le système QALC travaille à la fois sur une collection finie d’articles de journaux et sur le Web.

MULTI-ANALYSE vers une analyse syntaxique plus fiable
Laura Monceaux | Anne Vilnat
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Dans cet article, nous proposons de montrer que la combinaison de plusieurs analyses syntaxiques permet d’extraire Panalyse la plus fiable pour une phrase donnée. De plus, chaque information syntaxique sera affectée d’un score de confiance déterminé selon le nombre d’analyseurs syntaxiques la confirmant. Nous verrons que cette approche implique l’étude des différents analyseurs syntaxiques existants ainsi que leur évaluation.

2002

A Protocol for Evaluating Analyzers of Syntax (PEAS)
Véronique Gendner | Gabriel Illouz | Michèle Jardino | Laura Monceaux | Patrick Paroubek | Isabelle Robba | Anne Vilnat
Proceedings of the Third International Conference on Language Resources and Evaluation (LREC’02)

Recherche de la réponse fondée sur la reconnaissance du focus de la question
Olivier Ferret | Brigitte Grau | Martine Hurault-Plantet | Gabriel Illouz | Laura Monceaux | Isabelle Robba | Anne Vilnat
Actes de la 9ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Le système de question-réponse QALC utilise les documents sélectionnés par un moteur de recherche pour la question posée, les sépare en phrases afin de comparer chaque phrase avec la question, puis localise la réponse soit en détectant l’entité nommée recherchée, soit en appliquant des patrons syntaxiques d’extraction de la réponse, sortes de schémas figés de réponse pour un type donné de question. Les patrons d’extraction que nous avons définis se fondent sur la notion de focus, qui est l’élément important de la question, celui qui devra se trouver dans la phrase réponse. Dans cet article, nous décrirons comment nous déterminons le focus dans la question, puis comment nous l’utilisons dans l’appariement question-phrase et pour la localisation de la réponse dans les phrases les plus pertinentes retenues.

Cooperation between black box and glass box approaches for the evaluation of a question answering system
Martine Hurault-Plantet | Laura Monceaux
Proceedings of the Third International Conference on Language Resources and Evaluation (LREC’02)

Les analyseurs syntaxiques : atouts pour une analyse des questions dans un système de question-réponse ?
Laura Monceaux | Isabelle Robba
Actes de la 9ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Cet article montre que pour une application telle qu’un système de question – réponse, une analyse par mots clés de la question est insuffisante et qu’une analyse plus détaillée passant par une analyse syntaxique permet de fournir des caractéristiques permettant une meilleure recherche de la réponse.

2001

Analyse sémantique dans un système de question-réponse
Laura Monceaux
Actes de la 8ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues

Dans cet article, nous présentons le système QALC (Question Answering Langage Cognition) qui a participé à la tâche Question Réponse de la conférence d’évaluation TREC. Ce système a pour but d’extraire la réponse à une question d’une grande masse de documents. Afin d’améliorer les résultats de notre système, nous avons réfléchi à la nécessité de développer, dans le module d’analyse, le typage des questions mais aussi d’introduire des connaissances syntaxico-sémantiques pour une meilleure recherche de la réponse.