Patrice Bellot - ACL Anthology

Patrice Bellot

Also published as: P. Bellot

2025

Exploration du RAG pour la génération de réponses à des questions en contexte éducatif: étude sur les données SCIQ
Sarah Nouali | Ismail Badache | Patrice Bellot
Actes de l'atelier Intelligence Artificielle générative et ÉDUcation : Enjeux, Défis et Perspectives de Recherche 2025 (IA-ÉDU)

Les systèmes basés sur le RAG (Retrieval-Augmented Generation) sont des systèmes qui optimisent la puissance des grands modèles de langue (LLM, en anglais, Large Language Models) avec une recherche d’information (RI) à partir de sources de connaissances externes, sans avoir besoin de réentraîner le modèle. Ce type d’approche est connu pour améliorer les réponses du LLM, en particulier pour répondre à des questions spécifiques à un domaine, et réduire le phénomène d’hallucination constaté avec ces derniers. Dans cet article, nous explorons l’application d’un tel système dans un contexte pédagogique, en utilisant le jeu de données SCIQ (SCIence Questions), un ensemble de questions scientifiques à choix multiples de niveau scolaire, qui nous permet d’évaluer la capacité des modèles à fournir des réponses précises, pédagogiques et vérifiables. Nous évaluons les performances du système par rapport à un modèle génératif standard (Llama3 8b et Mistral 7b) de réponse aux questions et analysons ses forces et ses limites dans un contexte éducatif. La performance la plus élevée en termes de précision a été enregistrée avec l’approche basée sur le RAG (rag-llama), qui a permis d’atteindre une précision globalement supérieure par rapport aux autres approches testées.

Quand les Bots Déjouent l’Apprentissage : Enjeux et Défis de la Détection
Mohsine Aabid | Patrice Bellot | Simon Dumas Primbault
Actes de la 20e Conférence en Recherche d’Information et Applications (CORIA)

Identifier les bots d’une une bibliothèque numérique est un défi crucial pour analyser avec précision le comportement des utilisateurs afin de mieux répondre à leurs besoins. Mais que se passe-t-il lorsque les modèles de détection sont confrontés à des données provenant d’une période différente de leur période d’entraînement ? Cet article explore cette question en extrayant des caractéristiques clés, telles que la durée de l’activité et le nombre de requêtes, nous comparons plusieurs modèles d’apprentissage supervisé et évaluons la robustesse de cette approche face aux variations temporelles. Nos observations préliminaires montrent que les modèles de détection tendent à être plus confiant sur les données issues de leur période d’entraînement, ce qui soulève des questions sur leur capacité à généraliser à des périodes différentes. Cette dépendance met en lumière la nécessité de stratégies adaptatives, telles que des mises à jour régulières des modèles et de nouvelles approches d’apprentissage, afin de saisir l’évolution des comportements automatisés et améliorer la robustesse de la détection.

LIS at BAREC Shared Task 2025: Multi-Scale Curriculum Learning for Arabic Sentence-Level Readability Assessment Using Pre-trained Language Models
Anya Amel Nait Djoudi | Patrice Bellot | Adrian-Gabriel Chifu
Proceedings of The Third Arabic Natural Language Processing Conference: Shared Tasks

Profilage comportemental dans les jeux vidéo éducatifs via des réseaux convolutifs graphiques : le cas de GraphoGameFrançais
Emna Ammari | Patrice Bellot | Ambre Denis-Noël | Johannes C. Ziegler
Actes de l'atelier Intelligence Artificielle générative et ÉDUcation : Enjeux, Défis et Perspectives de Recherche 2025 (IA-ÉDU)

Les données comportementales des jeux vidéo ainsi que les traces de joueurs suscitent un intérêt croissant, tant pour la recherche que pour l’industrie du jeu. Ces données peuvent notamment enrichir l’expérience de jeu et améliorer l’identification automatique des profils des joueurs. Dans cet article, nous nous intéressons principalement aux données du jeu sérieux GraphoGame, un outil innovant d’aide à l’apprentissage de la lecture, offrant un environnement interactif pour les apprenants. Nous cherchons notamment à évaluer l’impact de ce jeu sur la performance des élèves en lecture via le profilage comportemental des joueurs et un apprentissage à base de graphes. Ainsi, deux techniques d’intégration basées sur des réseaux convolutifs, GraphSAGE et ECCConv, sont mises à profit pour classifier les graphes d’interactions des joueurs. Les résultats montrent qu’ECCConv surpasse GraphSAGE, mais que leurs prédictions combinées peuvent améliorer la classification, confirmant l’impact éducatif de GraphoGame même chez les élèves les plus avancés.

2024

EMOLIS App and Dataset to Find Emotionally Close Cartoons
Soëlie Lerch | Patrice Bellot | Elisabeth Murisasco | Emmanuel Bruno
Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)

We propose EMOLIS Dataset that contains annotated emotional transcripts of scenes from Walt Disney cartoons at the same time as physiological signals from spectators (breathing, ECG, eye movements). The dataset is used in EMOLIS App, our second proposal. EMOLIS App allows to display the identified emotions while a video is playing and suggest emotionally comparable videos. We propose to estimate an emotional distance between videos using multimodal neural representations (text, audio, video) that also combine physiological signals. This enables personalized results that can be used for cognitive therapies focusing on awareness of felt emotions. The dataset is designed to be suitable for all audiences and autistic people who have difficulties to recognize and express emotions.

2023

Apprentissage de dépendances entre labels pour la classification multi-labels à l’aide de transformeurs
Haytame Fallah | Elisabeth Murisasco | Emmanuel Bruno | Patrice Bellot
Actes de CORIA-TALN 2023. Actes de l'atelier "Analyse et Recherche de Textes Scientifiques" (ARTS)@TALN 2023

Dans cet article, nous proposons des approches pour améliorer les architectures basées sur des transformeurs pour la classification de documents multi-labels. Les dépendances entre les labels sont cruciales dans ce contexte. Notre méthode, appelée DepReg, ajoute un terme de régularisation à la fonction de perte pour encourager le modèle à prédire des labels susceptibles de coexister. Nous introduisons également un nouveau jeu de données nommé “arXiv-ACM”, composé de résumés scientifiques de la bibliothèque numérique arXiv, étiquetés avec les mots-clés ACM correspondants.

2018

DEFT2018 : recherche d’information et analyse de sentiments dans des tweets concernant les transports en Île de France (DEFT2018 : Information Retrieval and Sentiment Analysis in Tweets about Public Transportation in Île de France Region )
Patrick Paroubek | Cyril Grouin | Patrice Bellot | Vincent Claveau | Iris Eshkol-Taravella | Amel Fraisse | Agata Jackiewicz | Jihen Karoui | Laura Monceaux | Juan-Manuel Torres-Moreno
Actes de la Conférence TALN. Volume 2 - Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT

Cet article présente l’édition 2018 de la campagne d’évaluation DEFT (Défi Fouille de Textes). A partir d’un corpus de tweets, quatre tâches ont été proposées : identifier les tweets sur la thématique des transports, puis parmi ces derniers, identifier la polarité (négatif, neutre, positif, mixte), identifier les marqueurs de sentiment et la cible, et enfin, annoter complètement chaque tweet en source et cible des sentiments exprimés. Douze équipes ont participé, majoritairement sur les deux premières tâches. Sur l’identification de la thématique des transports, la micro F-mesure varie de 0,827 à 0,908. Sur l’identification de la polarité globale, la micro F-mesure varie de 0,381 à 0,823.

De l’usage réel des emojis à une prédiction de leurs catégories (From Emoji Usage to Emoji-Category Prediction)
Gaël Guibon | Magalie Ochs | Patrice Bellot
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN

L’utilisation des emojis dans les messageries sociales n’a eu de cesse d’augmenter ces dernières années. Plusieurs travaux récents ont porté sur la prédiction d’emojis afin d’épargner à l’utillisateur le parcours de librairies d’emojis de plus en plus conséquentes. Nous proposons une méthode permettant de récupérer automatiquement les catégories d’emojis à partir de leur contexte d’utilisation afin d’améliorer la prédiction finale. Pour ce faire nous utilisons des plongements lexicaux en considérant les emojis comme des mots présents dans des tweets. Nous appliquons ensuite un regroupement automatique restreint aux emojis visages afin de vérifier l’adéquation des résultats avec la théorie d’Ekman. L’approche est reproductible et applicable sur tous types d’emojis, ou lorsqu’il est nécessaire de prédire de nombreuses classes.

LIS at SemEval-2018 Task 2: Mixing Word Embeddings and Bag of Features for Multilingual Emoji Prediction
Gaël Guibon | Magalie Ochs | Patrice Bellot
Proceedings of the 12th International Workshop on Semantic Evaluation

In this paper we present the system submitted to the SemEval2018 task2 : Multilingual Emoji Prediction. Our system approaches both languages as being equal by first; considering word embeddings associated to automatically computed features of different types, then by applying bagging algorithm RandomForest to predict the emoji of a tweet.

Towards an Automatic Text Comprehension for the Arabic Question-Answering: Semantic and Logical Representation of Texts
Wided Bakari | Patrice Bellot | Mahmoud Neji
Proceedings of the 32nd Pacific Asia Conference on Language, Information and Computation

2017

LSIS at SemEval-2017 Task 4: Using Adapted Sentiment Similarity Seed Words For English and Arabic Tweet Polarity Classification
Amal Htait | Sébastien Fournier | Patrice Bellot
Proceedings of the 11th International Workshop on Semantic Evaluation (SemEval-2017)

We present, in this paper, our contribution in SemEval2017 task 4 : “Sentiment Analysis in Twitter”, subtask A: “Message Polarity Classification”, for English and Arabic languages. Our system is based on a list of sentiment seed words adapted for tweets. The sentiment relations between seed words and other terms are captured by cosine similarity between the word embedding representations (word2vec). These seed words are extracted from datasets of annotated tweets available online. Our tests, using these seed words, show significant improvement in results compared to the use of Turney and Littman’s (2003) seed words, on polarity classification of tweet messages.

Une plateforme de recommandation automatique d’emojis (An emoji recommandation platform)
Gaël Guibon | Magalie Ochs | Patrice Bellot
Actes des 24ème Conférence sur le Traitement Automatique des Langues Naturelles. Volume 3 - Démonstrations

Nous présentons une interface de recommandation d’emojis porteurs de sentiments qui utilise un modèle de prédiction appris sur des messages informels privés. Chacun étant associé à deux scores de polarité prédits. Cette interface permet permet également d’enregistrer les choix de l’utilisateur pour confirmer ou infirmer la recommandation.

2016

Bilbo-Val: Automatic Identification of Bibliographical Zone in Papers
Amal Htait | Sebastien Fournier | Patrice Bellot
Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16)

In this paper, we present the automatic annotation of bibliographical references’ zone in papers and articles of XML/TEI format. Our work is applied through two phases: first, we use machine learning technology to classify bibliographical and non-bibliographical paragraphs in papers, by means of a model that was initially created to differentiate between the footnotes containing or not containing bibliographical references. The previous description is one of BILBO’s features, which is an open source software for automatic annotation of bibliographic reference. Also, we suggest some methods to minimize the margin of error. Second, we propose an algorithm to find the largest list of bibliographical references in the article. The improvement applied on our model results an increase in the model’s efficiency with an Accuracy equal to 85.89. And by testing our work, we are able to achieve 72.23% as an average for the percentage of success in detecting bibliographical references’ zone.

LSIS at SemEval-2016 Task 7: Using Web Search Engines for English and Arabic Unsupervised Sentiment Intensity Prediction
Amal Htait | Sebastien Fournier | Patrice Bellot
Proceedings of the 10th International Workshop on Semantic Evaluation (SemEval-2016)

2015

Lsislif: CRF and Logistic Regression for Opinion Target Extraction and Sentiment Polarity Analysis
Hussam Hamdan | Patrice Bellot | Frederic Bechet
Proceedings of the 9th International Workshop on Semantic Evaluation (SemEval 2015)

Lsislif: Feature Extraction and Label Weighting for Sentiment Analysis in Twitter
Hussam Hamdan | Patrice Bellot | Frederic Bechet
Proceedings of the 9th International Workshop on Semantic Evaluation (SemEval 2015)

Analyse en dépendance et classification de requêtes en langue naturelle, application à la recommandation de livres [Dependency parsing and classification of natural language queries: application to book recommendation]
Anaïs Ollagnier | Sébastien Fournier | Patrice Bellot
Traitement Automatique des Langues, Volume 56, Numéro 3 : Recherche d'Information [Information Retrieval]

2014

Supervised Methods for Aspect-Based Sentiment Analysis
Hussam Hamdan | Patrice Bellot | Frederic Béchet
Proceedings of the 8th International Workshop on Semantic Evaluation (SemEval 2014)

Impact of the nature and size of the training set on performance in the automatic detection of named entities (Impact de la nature et de la taille des corpus d’apprentissage sur les performances dans la détection automatique des entités nommées) [in French]
Anaïs Ollagnier | Sébastien Fournier | Patrice Bellot | Frédéric Béchet
Proceedings of TALN 2014 (Volume 2: Short Papers)

The Impact of Z_score on Twitter Sentiment Analysis
Hussam Hamdan | Patrice Bellot | Frederic Béchet
Proceedings of the 8th International Workshop on Semantic Evaluation (SemEval 2014)

A Collection of Scholarly Book Reviews from the Platforms of electronic sources in Humanities and Social Sciences OpenEdition.org
Chahinez Benkoussas | Hussam Hamdan | Patrice Bellot | Frédéric Béchet | Elodie Faath
Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)

In this paper, we present our contribution for the automatic construction of the Scholarly Book Reviews corpora from two different sources, the OpenEdition platform which is dedicated to electronic resources in the humanities and social sciences, and the Web. The main target is the collect of reviews in order to provide automatic links between each review and its potential book in the future. For these purposes, we propose different document representations and we apply some supervised approaches for binary genre classification before evaluating their impact.

2013

Experiments with DBpedia, WordNet and SentiWordNet as resources for sentiment analysis in micro-blogging
Hussam Hamdan | Frederic Béchet | Patrice Bellot
Second Joint Conference on Lexical and Computational Semantics (*SEM), Volume 2: Proceedings of the Seventh International Workshop on Semantic Evaluation (SemEval 2013)

Are Semantically Coherent Topic Models Useful for Ad Hoc Information Retrieval?
Romain Deveaud | Eric SanJuan | Patrice Bellot
Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)

2012

Annotated Bibliographical Reference Corpora in Digital Humanities
Young-Min Kim | Patrice Bellot | Elodie Faath | Marin Dacos
Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12)

In this paper, we present new bibliographical reference corpora in digital humanities (DH) that have been developed under a research project, Robust and Language Independent Machine Learning Approaches for Automatic Annotation of Bibliographical References in DH Books supported by Google Digital Humanities Research Awards. The main target is the bibliographical references in the articles of Revues.org site, an oldest French online journal platform in DH field. Since the final object is to provide automatic links between related references and articles, the automatic recognition of reference fields like author and title is essential. These fields are therefore manually annotated using a set of carefully defined tags. After providing a full description of three corpora, which are separately constructed according to the difficulty level of annotation, we briefly introduce our experimental results on the first two corpora. A popular machine learning technique, Conditional Random Field (CRF) is used to build a model, which automatically annotates the fields of new references. In the experiments, we first establish a standard for defining features and labels adapted to our DH reference data. Then we show our new methodology against less structured references gives a meaningful result.

Combinaison de ressources générales pour une contextualisation implicite de requêtes (Query Contextualization and Reformulation by Combining External Corpora) [in French]
Romain Deveaud | Patrice Bellot
Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 2: TALN

2011

Restad : un logiciel d’indexation et de stockage relationnel de contenus XML (Restad: an indexing and relational storing software for XML content)
Yoann Moreau | Eric SanJuan | Patrice Bellot
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations

Ajout d’informations contextuelles pour la recherche de passages au sein de Wikipédia (Integrating contextual information for passage retrieval in Wikipedia)
Romain Deveaud | Eric Sanjuan | Patrice Bellot
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

La recherche de passages consiste à extraire uniquement des passages pertinents par rapport à une requête utilisateur plutôt qu’un ensemble de documents entiers. Cette récupération de passages est souvent handicapée par le manque d’informations complémentaires concernant le contexte de la recherche initiée par l’utilisateur. Des études montrent que l’ajout d’informations contextuelles par l’utilisateur peut améliorer les performances des systèmes de recherche de passages. Nous confirmons ces observations dans cet article, et nous introduisons également une méthode d’enrichissement de la requête à partir d’informations contextuelles issues de documents encyclopédiques. Nous menons des expérimentations en utilisant la collection et les méthodes d’évaluation proposées par la campagne INEX. Les résultats obtenus montrent que l’ajout d’informations contextuelles permet d’améliorer significativement les performances de notre système de recherche de passages. Nous observons également que notre approche automatique obtient les meilleurs résultats parmi les différentes approches que nous évaluons.

Mesure non-supervisée du degré d’appartenance d’une entité à un type (An unsupervised measure of the degree of belonging of an entity to a type)
Ludovic Bonnefoy | Patrice Bellot | Michel Benoit
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

La recherche d’entités nommées a été le sujet de nombreux travaux. Cependant, la construction des ressources nécessaires à de tels systèmes reste un problème majeur. Dans ce papier, nous proposons une méthode complémentaire aux outils capables de reconnaître des entités de types larges, dont l’objectif est de déterminer si une entité est d’un type donné, et ce de manière non-supervisée et quel que soit le type. Nous proposons pour cela une approche basée sur la comparaison de modèles de langage estimés à partir du Web. L’intérêt de notre approche est validé par une évaluation sur 100 entités et 273 types différents.

2010

Extraction probabiliste de chaînes de mots relatives à une opinion [A probabilistic approach for extracting opinion-related word chains from texts]
Remi Lavalley | Chloe Clavel | Patrice Bellot
Traitement Automatique des Langues, Volume 51, Numéro 3 : Opinions, sentiments et jugements d’évaluation [Opinions, sentiment and evaluative language]

2008

Quelles combinaisons de scores et de critères numériques pour un système de Questions/Réponses ?
Laurent Gillard | Patrice Bellot | Marc El-Bèze
Actes de la 15ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Dans cet article, nous présentons une discussion sur la combinaison de différents scores et critères numériques pour la sélection finale d’une réponse dans la partie en charge des questions factuelles du système de Questions/Réponses développé au LIA. Ces scores et critères numériques sont dérivés de ceux obtenus en sortie de deux composants cruciaux pour notre système : celui de sélection des passages susceptibles de contenir une réponse et celui d’extraction et de sélection d’une réponse. Ils sont étudiés au regard de leur expressivité. Des comparaisons sont faites avec des approches de sélection de passages mettant en oeuvre des scores conventionnels en recherche d’information. Parallèlement, l’influence de la taille des contextes (en nombre de phrases) est évaluée. Cela permet de mettre en évidence que le choix de passages constitués de trois phrases autour d’une réponse candidate, avec une sélection des réponses basée sur une combinaison entre un score de passage de type Lucene ou Cosine et d’un score de compacité apparaît comme un compromis intéressant.

Evaluation of Lexical Resources and Semantic Networks on a Corpus of Mental Associations
Laurianne Sitbon | Patrice Bellot | Philippe Blache
Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC'08)

When a user cannot find a word, he may think of semantically related words that could be used into an automatic process to help him. This paper presents an evaluation of lexical resources and semantic networks for modelling mental associations. A corpus of associations has been constructed for its evaluation. It is composed of 20 low frequency target words each associated 5 times by 20 users. In the experiments we look for the target word in propositions made from the associated words thanks to 5 different resources. The results show that even if each resource has a useful specificity, the global recall is low. An experiment to extract common semantic features of several associations showed that we cannot expect to see the target word below a rank of 20 propositions.

Repérage de citations, classification des styles de discours rapporté et identification des constituants citationnels en écrits journalistiques
Fabien Poulard | Thierry Waszak | Nicolas Hernandez | Patrice Bellot
Actes de la 15ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Dans le contexte de la recherche de plagiat, le repérage de citations et de ses constituants est primordial puisqu’il peut amener à évaluer le caractère licite ou illicite d’une reprise (source citée ou non). Nous proposons ici une comparaison de méthodes automatiques pour le repérage de ces informations et rapportons une évaluation quantitative de celles-ci. Un corpus d’écrits journalistiques français a été manuellement annoté pour nous servir de base d’apprentissage et de test.

Evaluating Robustness Of A QA System Through A Corpus Of Real-Life Questions
Laurianne Sitbon | Patrice Bellot | Philippe Blache
Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC'08)

This paper presents the sequential evaluation of the question answering system SQuaLIA. This system is based on the same sequential process as most statistical question answering systems, involving 4 main steps from question analysis to answer extraction. The evaluation is based on a corpus made from 20 questions taken in the set of an evaluation campaign and which were well answered by SQuaLIA. Each of the 20 questions has been typed by 17 native participants, non natives and dyslexics. They were vocally instructed the target of each question. Each of the 4 analysis steps of the system involves a loss of accuracy, until an average of 60 of right answers at the end of the process. The main cause of this loss seems to be the orthographic mistakes users make on nouns.

Actes de la 15ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues
Patrice Bellot | Marie-Laure Guénot
Actes de la 15ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues

2007

Analyse des échecs d’une approche pour traiter les questions définitoires soumises à un système de questions/réponses
Laurent Gillard | Patrice Bellot | Marc El-Bèze
Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. Posters

Cet article revient sur le type particulier des questions définitoires étudiées dans le cadre des campagnes d’évaluation des systèmes de Questions/Réponses. Nous présentons l’approche développée suite à notre participation à la campagne EQueR et son évaluation lors de QA@CLEF 2006. La réponse proposée est la plus représentative des expressions présentes en apposition avec l’objet à définir, sa sélection est faite depuis des indices dérivés de ces appositions. Environ 80% de bonnes réponses sont trouvées sur les questions définitoires des volets francophones de CLEF. Les cas d’erreurs rencontrés sont analysés et discutés en détail.

Éléments pour adapter les systèmes de recherche d’information aux dyslexiques [Towards adapting information retrieval systems to dyslexic people]
Lauriane Sitbon | Patrice Bellot | Philippe Blache
Traitement Automatique des Langues, Volume 48, Numéro 2 : Communication Assistée [Assisted communication]

Traitements phrastiques phonétiques pour la réécriture de phrases dysorthographiées
Laurianne Sitbon | Patrice Bellot | Philippe Blache
Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. Posters

Cet article décrit une méthode qui combine des hypothèses graphémiques et phonétiques au niveau de la phrase, à l’aide d’une réprésentation en automates à états finis et d’un modèle de langage, pour la réécriture de phrases tapées au clavier par des dysorthographiques. La particularité des écrits dysorthographiés qui empêche les correcteurs orthographiques d’être efficaces pour cette tâche est une segmentation en mots parfois incorrecte. La réécriture diffère de la correction en ce sens que les phrases réécrites ne sont pas à destination de l’utilisateur mais d’un système automatique, tel qu’un moteur de recherche. De ce fait l’évaluation est conduite sur des versions filtrées et lemmatisées des phrases. Le taux d’erreurs mots moyen passe de 51 % à 20 % avec notre méthode, et est de 0 % sur 43 % des phrases testées.

2006

Tools and methods for objective or contextual evaluation of topic segmentation
Laurianne Sitbon | Patrice Bellot
Proceedings of the Fifth International Conference on Language Resources and Evaluation (LREC’06)

In this paper we discuss the way of evaluating topic segmentation, from mathematical measures on variously constructed reference corpus to contextual evaluation depending on different topic segmentation usages. We present an overview of the different ways of building reference corpora and of mathematically evaluating segmentation methods, and then we focus on three tasks which may involve a topic segmentation: text extraction, information retrieval and document presentation. We have developed two graphical interfaces, one for an intrinsic comparison, and the other one dedicated to an evaluation in an information retrieval context. These tools will be very soon distributed under GPL licences on the Technolangue project web page.

Question Answering Evaluation Survey
L. Gillard | P. Bellot | M. El-Bèze
Proceedings of the Fifth International Conference on Language Resources and Evaluation (LREC’06)

Evaluating Question Answering (QA) Systems is a very complex task: state-of-the-art systems involve processing whose influences and contributions on the final result are not clear and need to be studied. We present some key points on different aspects of the QA Systems (QAS) evaluation: mainly, as performed during large-scale campaigns, but also with clues on the evaluation of QAS typical software components; the last part of this paper, is devoted to a brief presentation of the French QA campaign EQueR and presents two issues: inter-annotator agreement during campaign and the reuse of reference patterns.

Questions Booléennes : Oui ou Non, des Questions et des Réponses
Laurent Gillard | Patrice Bellot | Marc El-Bèze
Actes de la 13ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Dans cet article, nous présentons une approche afin de traiter les questions booléennes, c’est-à-dire des questions dont la réponse peut être un Oui ou un Non, cela, dans le cadre d’un système de Questions-Réponses. En effet, la campagne Technolangue-EQueR, première campagne francophone de Questions-Réponses (QR) utilisant des questions et un corpus en français, a également été la première campagne QR à introduire une évaluation pour ce type de questions. Nous détaillons, parallèlement à notre approche, des pistes de réflexion sur les aspects sous-jacents à ces questions booléennes, notamment au travers d’une analyse des résultats obtenus par notre système dans un contexte similaire à celui de notre participation à la campagne officielle.

Vers une prédiction automatique de la difficulté d’une question en langue naturelle
Laurianne Sitbon | Jens Grivolla | Laurent Gillard | Patrice Bellot | Philippe Blache
Actes de la 13ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Nous proposons et testons deux méthodes de prédiction de la capacité d’un système à répondre à une question factuelle. Une telle prédiciton permet de déterminer si l’on doit initier un dialogue afin de préciser ou de reformuler la question posée par l’utilisateur. La première approche que nous proposons est une adaptation d’une méthode de prédiction dans le domaine de la recherche documentaire, basée soit sur des machines à vecteurs supports (SVM) soit sur des arbres de décision, avec des critères tels que le contenu des questions ou des documents, et des mesures de cohésion entre les documents ou passages de documents d’où sont extraits les réponses. L’autre approche vise à utiliser le type de réponse attendue pour décider de la capacité du système à répondre. Les deux approches ont été testées sur les données de la campagne Technolangue EQUER des systèmes de questions-réponses en français. L’approche à base de SVM est celle qui obtient les meilleurs résultats. Elle permet de distinguer au mieux les questions faciles, celles auxquelles notre système apporte une bonne réponse, des questions difficiles, celles restées sans réponses ou auxquelles le système a répondu de manière incorrecte. A l’opposé on montre que pour notre système, le type de réponse attendue (personnes, quantités, lieux...) n’est pas un facteur déterminant pour la difficulté d’une question.

2005

Segmentation thématique par chaînes lexicales pondérées
Laurianne Sitbon | Patrice Bellot
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Cet article propose une méthode innovante et efficace pour segmenter un texte en parties thématiquement cohérentes, en utilisant des chaînes lexicales pondérées. Les chaînes lexicales sont construites en fonction de hiatus variables, ou bien sans hiatus, ou encore pondérées en fonction de la densité des occurrences du terme dans la chaîne. D’autre part, nous avons constaté que la prise en compte du repérage d’entités nommées dans la chaîne de traitement, du moins sans résolution des anaphores, n’améliore pas significativement les performances. Enfin, la qualité de la segmentation proposée est stable sur différentes thématiques, ce qui montre une indépendance par rapport au type de document.

2004

Evaluation de méthodes de segmentation thématique linéaire non supervisées après adaptation au français
Laurianne Sitbon | Patrice Bellot
Actes de la 11ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Nous proposons une évaluation de différentes méthodes et outils de segmentation thématique de textes. Nous présentons les outils de segmentation linéaire et non supervisée DotPlotting, Segmenter, C99, TextTiling, ainsi qu’une manière de les adapter et de les tester sur des documents français. Les résultats des tests montrent des différences en performance notables selon les sujets abordés dans les documents, et selon que le nombre de segments à trouver est fixé au préalable par l’utilisateur. Ces travaux font partie du projet Technolangue AGILE-OURAL.

2003

Bases de connaissances pour asseoir la crédibilité des réponses d’un système de Q/R
Laurent Gillard | Patrice Bellot | Marc El-Bèze
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Posters

Cet article présente un prototype de Question/Réponse (Q/R) impliquant un ensemble de bases de connaissances (BC) dont l’objectif est d’apporter un crédit supplémentaire aux réponses candidates trouvées. Ces BC et leur influence sur la stratégie d’ordonnancement mise en uvre sont décrites dans le cadre de la participation du système à la campagne Q/R de TREC-2002.

Co-authors

Venues