Cécile Fabre - ACL Anthology

Cécile Fabre

Also published as: Cecile Fabre

2025

Embeddings, topic models, LLM : un air de famille
Ludovic Tanguy | Cécile Fabre | Nabil Hathout | Lydia-Mai Ho-Dac
Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux

Word embeddings, topic models, LLMs: a family affair This article presents a study on terms denoting family relationships (brother, aunt, etc.) in French using three approaches: word embeddings, topic modeling, and pre-trained language models. The first two types of representations are built from the French version of Wikipedia, while the third is derived through direct interaction with ChatGPT. The aim is to compare how these three methods represent such terms, in two main ways: by evaluating them against a structural definition of family relations (in terms of features such as gender, lineage, etc.), and by comparing the topics associated with each term. These methods reveal different modes of structuring family-related vocabulary, while also underscoring the continued necessity of corpus-based and controlled analyses to obtain reliable results.

Traitement Automatique des Langues, Volume 66, Numéro 1
Maxime Amblard | Marie Candito | Cécile Fabre | Benoît Favre | Aurélie Névéol | Sophie Rosset
Traitement Automatique des Langues, Volume 66, Numéro 1

2024

Traitement Automatique des Langues, Volume 65, Numéro 1 : Varia [Varia]
Maxime Amblard | Cécile Fabre | Emmanuel Morin | Sophie Rosset
Traitement Automatique des Langues, Volume 65, Numéro 1 : Varia [Varia]

2023

Traitement Automatique des Langues, Volume 64, Numéro 1 : Varia [Varia]
Maxime Amblard | Cécile Fabre | Emmanuel Morin | Sophie Rosset | Pascale Sébillot
Traitement Automatique des Langues, Volume 64, Numéro 1 : Varia [Varia]

2022

Préface [Editorial]
Cécile Fabre | Emmanuel Morin | Sophie Rosset | Pascale Sébillot
Traitement Automatique des Langues, Volume 63, Numéro 3 : Etats de l'art en TAL [Review articles in NLP]

Traitement Automatique des Langues, Volume 63, Numéro 3 : Etats de l'art en TAL [Review articles in NLP]
Cécile Fabre | Emmanuel Morin | Sophie Rosset | Pascale Sébillot
Traitement Automatique des Langues, Volume 63, Numéro 3 : Etats de l'art en TAL [Review articles in NLP]

Traitement Automatique des Langues, Volume 63, Numéro 1 : Varia [Varia]
Cécile Fabre | Emmanuel Morin | Sophie Rosset | Pascale Sébillot
Traitement Automatique des Langues, Volume 63, Numéro 1 : Varia [Varia]

2021

Coreference Chains Categorization by Sequence Clustering
Silvia Federzoni | Lydia-Mai Ho-Dac | Cécile Fabre
Proceedings of the 2nd Workshop on Computational Approaches to Discourse

The diversity of coreference chains is usually tackled by means of global features (length, types and number of referring expressions, distance between them, etc.). In this paper, we propose a novel approach that provides a description of their composition in terms of sequences of expressions. To this end, we apply sequence analysis techniques to bring out the various strategies for introducing a referent and keeping it active throughout discourse. We discuss a first application of this method to a French written corpus annotated with coreference chains. We obtain clusters that are linguistically coherent and interpretable in terms of reference strategies and we demonstrate the influence of text genre and semantic type of the referent on chain composition.

Traitement Automatique des Langues, Volume 62, Numéro 1 : Varia [Varia]
Cécile Fabre | Emmanuel Morin | Sophie Rosset | Pascale Sébillot
Traitement Automatique des Langues, Volume 62, Numéro 1 : Varia [Varia]

2020

Traitement Automatique des Langues, Volume 61, Numéro 1 : Varia [Varia]
Cécile Fabre | Emmanuel Morin | Sophie Rosset | Pascale Sébillot
Traitement Automatique des Langues, Volume 61, Numéro 1 : Varia [Varia]

LITL at SMM4H: An Old-school Feature-based Classifier for Identifying Adverse Effects in Tweets
Ludovic Tanguy | Lydia-Mai Ho-Dac | Cécile Fabre | Roxane Bois | Touati Mohamed Yacine Haddad | Claire Ibarboure | Marie Joyau | François Le moal | Jade Moiilic | Laura Roudaut | Mathilde Simounet | Irena Stankovic | Mickaela Vandewaetere
Proceedings of the Fifth Social Media Mining for Health Applications Workshop & Shared Task

This paper describes our participation to the SMM4H shared task 2. We designed a rule-based classifier that estimates whether a tweet mentions an adverse effect associated to a medication. Our system addresses English and French, and is based on a number of specific word lists and features. These cues were mostly obtained through an extensive corpus analysis of the provided training data. Different weighting schemes were tested (manually tuned or based on a logistic regression), the best one achieving a F1 score of 0.31 for English and 0.15 for French.

Impact de la structure logique des documents sur les modèles distributionnels : expérimentations sur le corpus TALN (Impact of document structure on distributional semantics models: a case study on NLP research articles )
Ludovic Tanguy | Cécile Fabre | Yoann Bard
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles

Nous présentons une expérience visant à mesurer en quoi la structure logique d’un document impacte les représentations lexicales dans les modèles de sémantique distributionnelle. En nous basant sur des documents structurés (articles de recherche en TAL) nous comparons des modèles construits sur des corpus obtenus par suppression de certaines parties des textes du corpus : titres de section, résumés, introductions et conclusions. Nous montrons que malgré des différences selon les parties et le lexique pris en compte, ces zones réputées particulièrement informatives du contenu d’un article ont un impact globalement moins significatif que le reste du texte sur la construction du modèle.

2019

Toward a Computational Multidimensional Lexical Similarity Measure for Modeling Word Association Tasks in Psycholinguistics
Bruno Gaume | Lydia Mai Ho-Dac | Ludovic Tanguy | Cécile Fabre | Bénédicte Pierrejean | Nabil Hathout | Jérôme Farinas | Julien Pinquier | Lola Danet | Patrice Péran | Xavier De Boissezon | Mélanie Jucla
Proceedings of the Workshop on Cognitive Modeling and Computational Linguistics

This paper presents the first results of a multidisciplinary project, the “Evolex” project, gathering researchers in Psycholinguistics, Neuropsychology, Computer Science, Natural Language Processing and Linguistics. The Evolex project aims at proposing a new data-based inductive method for automatically characterising the relation between pairs of french words collected in psycholinguistics experiments on lexical access. This method takes advantage of several complementary computational measures of semantic similarity. We show that some measures are more correlated than others with the frequency of lexical associations, and that they also differ in the way they capture different semantic relations. This allows us to consider building a multidimensional lexical similarity to automate the classification of lexical associations.

Traitement Automatique des Langues, Volume 60, Numéro 1 : Varia [Varia]
Cécile Fabre | Emmanuel Morin | Sophie Rosset | Pascale Sébillot
Traitement Automatique des Langues, Volume 60, Numéro 1 : Varia [Varia]

2018

Extending the gold standard for a lexical substitution task: is it worth it?
Ludovic Tanguy | Cécile Fabre | Laura Rivière
Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)

De la constitution d’un corpus arboré à l’analyse syntaxique du serbe [From the constitution of a treebank to the syntactic analysis of the Serbian language]
Aleksandra Miletic | Cécile Fabre | Dejan Stosic
Traitement Automatique des Langues, Volume 59, Numéro 3 : Traitement automatique des langues peu dotées [NLP for Under-Resourced Languages]

2017

Extracting hypernym relations from Wikipedia disambiguation pages : comparing symbolic and machine learning approaches
Mouna Kamel | Cassia Trojahn | Adel Ghamnia | Nathalie Aussenac-Gilles | Cécile Fabre
Proceedings of the 12th International Conference on Computational Semantics (IWCS) — Long papers

2016

Analyse d’une tâche de substitution lexicale : quelles sont les sources de difficulté ? (Difficulty analysis for a lexical substitution task)
Ludovic Tanguy | Cécile Fabre | Camille Mercier
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Posters)

Nous proposons dans cet article une analyse des résultats de la campagne SemDis 2014 qui proposait une tâche de substitution lexicale en français. Pour les 300 phrases du jeu de test, des annotateurs ont proposé des substituts à un mot cible, permettant ainsi d’établir un gold standard sur lequel les systèmes participants ont été évalués. Nous cherchons à identifier les principales caractéristiques des items du jeu de test qui peuvent expliquer les variations de performance pour les humains comme pour les systèmes, en nous basant sur l’accord inter-annotateurs des premiers et les scores de rappel des seconds. Nous montrons que si plusieurs caractéristiques communes sont associées aux deux types de difficulté (rareté du sens dans lequel le mot-cible est employé, fréquence d’emploi du mot-cible), d’autres sont spécifiques aux systèmes (degré de polysémie du mot-cible, complexité syntaxique).

Mise au point d’une méthode d’annotation morphosyntaxique fine du serbe (Developping a method for detailed morphosyntactic tagging of Serbian)
Aleksandra Miletic | Cécile Fabre | Dejan Stosic
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Posters)

Cet article présente une expérience d’annotation morphosyntaxique fine du volet serbe du corpus parallèle ParCoLab (corpus serbe-français-anglais). Elle a consisté à enrichir une annotation existante en parties du discours avec des traits morphosyntaxiques fins, afin de préparer une étape ultérieure de parsing. Nous avons comparé trois approches : 1) annotation manuelle ; 2) préannotation avec un étiqueteur entraîné sur le croate suivie d’une correction manuelle ; 3) réentraînement de l’outil sur un petit échantillon validé du corpus, suivi de l’annotation automatique et de la correction manuelle. Le modèle croate maintient une stabilité globale en passant au serbe, mais les différences entre les deux jeux d’étiquettes exigent des interventions manuelles importantes. Le modèle ré-entraîné sur un échantillon de taille limité (20K tokens) atteint la même exactitude que le modèle existant et le gain de temps observé montre que cette méthode optimise la phase de correction.

2015

Distributional Semantics Today - Introduction to the special issue
Cécile Fabre | Alessandro Lenci
Traitement Automatique des Langues, Volume 56, Numéro 2 : Sémantique distributionnelle [Distributional semantics]

2014

Tuning distributional analysis for a small specialized corpus (Ajuster l’analyse distributionnelle à un corpus spécialisé de petite taille) [in French]
Cécile Fabre | Nabil Hathout | Franck Sajous | Ludovic Tanguy
TALN-RECITAL 2014 Workshop SemDis 2014 : Enjeux actuels de la sémantique distributionnelle (SemDis 2014: Current Challenges in Distributional Semantics)

TALN-RECITAL 2014 Workshop SemDis 2014 : Enjeux actuels de la sémantique distributionnelle (SemDis 2014: Current Challenges in Distributional Semantics)
Cécile Fabre | Nabil Hathout | Lydia-Mai Ho-Dac | François Morlane-Hondère | Philippe Muller | Franck Sajous | Ludovic Tanguy | Tim Van de Cruys
TALN-RECITAL 2014 Workshop SemDis 2014 : Enjeux actuels de la sémantique distributionnelle (SemDis 2014: Current Challenges in Distributional Semantics)

Presentation of the SemDis 2014 workshop: distributional semantics for two tasks - lexical substitution and exploration of specialized corpora (Présentation de l’atelier SemDis 2014 : sémantique distributionnelle pour la substitution lexicale et l’exploration de corpus spécialisés) [in French]
Cécile Fabre | Nabil Hathout | Lydia-Mai Ho-Dac | François Morlane-Hondère | Philippe Muller | Franck Sajous | Ludovic Tanguy | Tim Van de Cruys
TALN-RECITAL 2014 Workshop SemDis 2014 : Enjeux actuels de la sémantique distributionnelle (SemDis 2014: Current Challenges in Distributional Semantics)

Predicting the relevance of distributional semantic similarity with contextual information
Philippe Muller | Cécile Fabre | Clémentine Adam
Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)

2013

Evaluer et améliorer une ressource distributionnelle: protocole d’annotation de liens sémantiques en contexte [Evaluating and improving a distributional resource: protocol for in-context annotation of semantic links]
Clémentine Adam | Cécile Fabre | Philippe Muller
Traitement Automatique des Langues, Volume 54, Numéro 1 : Varia [Varia]

2012

An empirical resource for discovering cognitive principles of discourse organisation: the ANNODIS corpus
Stergos Afantenos | Nicholas Asher | Farah Benamara | Myriam Bras | Cécile Fabre | Mai Ho-dac | Anne Le Draoulec | Philippe Muller | Marie-Paule Péry-Woodley | Laurent Prévot | Josette Rebeyrolles | Ludovic Tanguy | Marianne Vergez-Couret | Laure Vieu
Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12)

This paper describes the ANNODIS resource, a discourse-level annotated corpus for French. The corpus combines two perspectives on discourse: a bottom-up approach and a top-down approach. The bottom-up view incrementally builds a structure from elementary discourse units, while the top-down view focuses on the selective annotation of multi-level discourse structures. The corpus is composed of texts that are diversified with respect to genre, length and type of discursive organisation. The methodology followed here involves an iterative design of annotation guidelines in order to reach satisfactory inter-annotator agreement levels. This allows us to raise a few issues relevant for the comparison of such complex objects as discourse structures. The corpus also serves as a source of empirical evidence for discourse theories. We present here two first analyses taking advantage of this new annotated corpus --one that tested hypotheses on constraints governing discourse structure, and another that studied the variations in composition and signalling of multi-level discourse structures.

Étude des manifestations de la relation de méronymie dans une ressource distributionnelle (Study of Meronymy in a Distribution-Based Lexical Resource) [in French]
François Morlane-Hondère | Cécile Fabre
Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 2: TALN

2010

L’antonymie observée avec des méthodes de TAL : une relation à la fois syntagmatique et paradigmatique ?
François Morlane-Hondère | Cécile Fabre
Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Cette étude utilise des outils de TAL pour tester l’hypothèse avancée par plusieurs études linguistiques récentes selon laquelle la relation antonymique, classiquement décrite comme une relation paradigmatique, a la particularité de fonctionner également sur le plan syntagmatique, c’est-à-dire de réunir des mots qui sont non seulement substituables mais qui apparaissent également régulièrement dans des relations contextuelles. Nous utilisons deux méthodes – l’analyse distributionnelle pour le plan paradigmatique, la recherche par patrons antonymiques pour le plan syntagmatique. Les résultats montrent que le diagnostic d’antonymie n’est pas significativement meilleur lorsqu’on croise les deux méthodes, puisqu’une partie des antonymes identifiés ne répondent pas au test de substituabilité, ce qui semble confirmer la prépondérance du plan syntagmatique pour l’étude et l’acquisition de cette relation.

Une évaluation de l’impact des types de textes sur la tâche de segmentation thématique
Clémentine Adam | Philippe Muller | Cécile Fabre
Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Cette étude a pour but de contribuer à la définition des objectifs de la segmentation thématique (ST), en incitant à prendre en considération le paramètre du type de textes dans cette tâche. Notre hypothèse est que, si la ST est certes pertinente pour traiter certains textes dont l’organisation est bien thématique, elle n’est pas adaptée à la prise en compte d’autres modes d’organisation (temporelle, rhétorique), et ne peut pas être appliquée sans précaution à des textes tout-venants. En comparant les performances d’un système de ST sur deux corpus, à organisation thématique “forte” et “faible”, nous montrons que cette tâche est effectivement sensible à la nature des textes.

2009

Le projet ANNODIS vise la construction d’un corpus de textes annotés au niveau discursif ainsi que le développement d’outils pour l’annotation et l’exploitation de corpus. Les annotations adoptent deux points de vue complémentaires : une perspective ascendante part d’unités de discours minimales pour construire des structures complexes via un jeu de relations de discours ; une perspective descendante aborde le texte dans son entier et se base sur des indices pré-identifiés pour détecter des structures discursives de haut niveau. La construction du corpus est associée à la création de deux interfaces : la première assiste l’annotation manuelle des relations et structures discursives en permettant une visualisation du marquage issu des prétraitements ; une seconde sera destinée à l’exploitation des annotations. Nous présentons les modèles et protocoles d’annotation élaborés pour mettre en oeuvre, au travers de l’interface dédiée, la campagne d’annotation.

2006

Extraction de relations sémantiques entre noms et verbes au-delà des liens morphologiques
Cécile Fabre | Didier Bourigault
Actes de la 13ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Nous étudions les relations de proximité sémantique entre les noms et les verbes à partir de données calculées sur un corpus de 200 millions de mots par un programme d’analyse distributionnelle automatique. Nous exposons les résultats d’une méthode d’extraction de couples Nom/Verbe, qui combine un indice de proximité distributionnelle et un indice de cooccurrence : un couple est extrait si le nom et le verbe apparaissent avec les mêmes arguments sur l’ensemble du corpus, d’une part, et s’ils apparaissent au moins une fois dans un même paragraphe munis du même argument, d’autre part. L’article élabore une typologie des 1441 couples extraits et démontre l’intérêt de prendre en compte les couples non liés morphologiquement, qui constituent 70 % des données.

2002

Acquisition of Qualia Elements from Corpora - Evaluation of a Symbolic Learning Method
Pierrette Bouillon | Vincent Claveau | Cécile Fabre | Pascale Sébillot
Proceedings of the Third International Conference on Language Resources and Evaluation (LREC’02)

Groupes prépositionnels arguments ou circonstants : vers un repérage automatique en corpus
Cécile Fabre | Cécile Frérot
Actes de la 9ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Dans cette étude, menée dans le cadre de la réalisation d’un analyseur syntaxique de corpus spécialisés, nous nous intéressons à la question des arguments et circonstants et à leur repérage automatique en corpus. Nous proposons une mesure simple pour distinguer automatiquement, au sein des groupes prépositionnels rattachés au verbe, des types de compléments différents. Nous réalisons cette distinction sur corpus, en mettant en oeuvre une stratégie endogène, et en utilisant deux mesures de productivité : la productivité du recteur verbal vis à vis de la préposition évalue le degré de cohésion entre le verbe et son groupe prépositionnel (GP), tandis que la productivité du régi vis à vis de la préposition permet d’évaluer le degré de cohésion interne du GP. Cet article présente ces deux mesures, commente les données obtenues, et détermine dans quelle mesure cette partition recouvre la distinction traditionnelle entre arguments et circonstants.

2000

Inductive Logic Programming for Corpus-Based Acquisition of Semantic Lexicons
Pascale Sébillot | Pierrette Bouillon | Cecile Fabre
Fourth Conference on Computational Natural Language Learning and the Second Learning Language in Logic Workshop

Boosting Variant Recognition with Light Semantics
Cecile Fabre | Christian Jacquemin
COLING 2000 Volume 1: The 18th International Conference on Computational Linguistics

1996

Interpretation of Nominal Compounds: Combining Domain-Independent and Domain-Specific Information
Cecile Fabre
COLING 1996 Volume 1: The 16th International Conference on Computational Linguistics

Co-authors

Philippe Muller 7

Nabil Hathout 5

François Morlane-Hondère 4

Clémentine Adam 3

Maxime Amblard 3

Franck Sajous 3

Nicholas Asher 2

Farah Benamara 2

Pierrette Bouillon 2

Anne Le Draoulec 2

Aleksandra Miletić 2

Marie-Paule Pery-Woodley 2

Laurent Prévot 2

Tim Van de Cruys 2

Marianne Vergez-Couret 2

Stergos Afantenos 1

Nathalie Aussenac-Gilles 1

Didier Bourigault 1

Marie Candito 1

Vincent Claveau 1

Xavier De Boissezon 1

Patrice Enjalbert 1

Jérôme Farinas 1

Silvia Federzoni 1

Stéphane Ferrari 1

Cécile Frérot 1

Touati Mohamed Yacine Haddad 1

Claire Ibarboure 1

Christian Jacquemin 1

Mélanie Jucla 1

François Le moal 1

Alessandro Lenci 1

Camille Mercier 1

Aurelie Neveol 1

Bénédicte Pierrejean 1

Julien Pinquier 1

Patrice Péran 1

Josette Rebeyrolle 1

Josette Rebeyrolles 1

Laura Rivière 1

Laura Roudaut 1

Mathilde Simounet 1

Irena Stankovic 1

Cassia Trojahn 1

Mickaela Vandewaetere 1

Antoine Widlöcher 1

Venues