Gabriel Illouz

2022

Un corpus annoté pour la génération de questions et l’extraction de réponses pour l’enseignement (An annotated corpus for abstractive question generation and extractive answer for education)
Thomas Gerald | Sofiane Ettayeb | Ha Quang Le | Anne Vilnat | Gabriel Illouz | Patrick Paroubek
Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 3 : Démonstrations

Dans cette démonstration, nous présenterons les travaux en cours pour l’annotation d’un nouveau corpus de questions-réponses en langue Française. Contrairement aux corpus existant comme “FQuad” ou “Piaf”, nous nous intéressons à l’annotation de questions-réponses “non factuelles”. En effet, si dans la littérature, de nombreux corpus et modèles de questions-réponses pré-entraînés sont disponibles, ceux-ci ne privilégient que rarement les annotations s’appuyant sur un schéma de raisonnement issue de l’agrégation de différentes sources ou contextes. L’objectif du projet associé est de parvenir à la création d’un assistant virtuel pour l’éducation, ainsi des réponses explicatives, de raisonnement et/ou d’agrégation de l’information sont à privilégier. Notons enfin, que la volumétrie des données doit être conséquente, en particulier par la considération d’approches neuronales génératives ou extractives. Actuellement, nous disposons de 262 questions et réponses obtenues durant l’étape de validation de la campagne d’annotation. Une deuxième phase d’annotation avec une volumétrie plus importante débutera fin mai 2022 (environ 8000 questions).

pdf bib

Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Atelier DÉfi Fouille de Textes (DEFT)
Cyril Grouin | Gabriel Illouz
Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Atelier DÉfi Fouille de Textes (DEFT)

pdf bib abs

Notation automatique de réponses courtes d’étudiants : présentation de la campagne DEFT 2022 (Automatic grading of students’ short answers : presentation of the DEFT 2022 challenge)
Cyril Grouin | Gabriel Illouz
Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Atelier DÉfi Fouille de Textes (DEFT)

La correction de copies d’étudiants est une tâche coûteuse en temps pour l’enseignant. Nous proposons deux tâches d’attribution automatique de notes à des réponses courtes d’étudiants : une tâche classique d’entraînement de système et d’application sur le corpus de test, et une tâche d’amélioration continue du système avec interrogation d’un serveur d’évaluation. Les corpus se composent de réponses courtes d’étudiants à des questions en programmation web et bases de données, et sont anonymes. Quatre équipes ont participé à la première tâche. Les meilleures précisions de chaque équipe varient de 0,440 à 0,756 pour une précision moyenne de 0,542 et une médiane de 0,524. En raison de la complexité de la deuxième tâche, une seule équipe a participé, mais les résultats soumis ne sont pas exploitables.

2021

pdf bib abs

Classification de cas cliniques et évaluation automatique de réponses d’étudiants : présentation de la campagne DEFT 2021 (Clinical cases classification and automatic evaluation of student answers : Presentation of the DEFT 2021 Challenge)
Cyril Grouin | Natalia Grabar | Gabriel Illouz
Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Atelier DÉfi Fouille de Textes (DEFT)

Le défi fouille de textes (DEFT) est une campagne d’évaluation annuelle francophone. Nous présentons les corpus et baselines élaborées pour trois tâches : (i) identifier le profil clinique de patients décrits dans des cas cliniques, (ii) évaluer automatiquement les réponses d’étudiants sur des questionnaires en ligne (Moodle) à partir de la correction de l’enseignant, et (iii) poursuivre une évaluation de réponses d’étudiants à partir de réponses déjà évaluées par l’enseignant. Les résultats varient de 0,394 à 0,814 de F-mesure sur la première tâche (7 équipes), de 0,448 à 0,682 de précision sur la deuxième (3 équipes), et de 0,133 à 0,510 de précision sur la dernière (3 équipes).

pdf bib

Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Atelier DÉfi Fouille de Textes (DEFT)
Cyril Grouin | Natalia Grabar | Gabriel Illouz
Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Atelier DÉfi Fouille de Textes (DEFT)

2020

pdf bib abs

Simplification automatique de texte dans un contexte de faibles ressources (Automatic Text Simplification : Approaching the Problem in Low Resource Settings for French)
Sadaf Abdul Rauf | Anne-Laure Ligozat | Francois Yvon | Gabriel Illouz | Thierry Hamon
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles

La simplification de textes a émergé comme un sous-domaine actif du traitement automatique des langues, du fait des problèmes pratiques et théoriques qu’elle permet d’aborder, ainsi que de ses nombreuses applications pratiques. Des corpus de simplification sont nécessaires pour entrainer des systèmes de simplification automatique ; ces ressources sont toutefois rares et n’existent que pour un petit nombre de langues. Nous montrons ici que dans un contexte où les ressources pour la simplification sont rares, il reste néanmoins possible de construire des systèmes de simplification, en ayant recours à des corpus synthétiques, par exemple obtenus par traduction automatique, et nous évaluons diverses manières de les constituer.

pdf bib abs

Detecting Non-literal Translations by Fine-tuning Cross-lingual Pre-trained Language Models
Yuming Zhai | Gabriel Illouz | Anne Vilnat
Proceedings of the 28th International Conference on Computational Linguistics

Human-generated non-literal translations reflect the richness of human languages and are sometimes indispensable to ensure adequacy and fluency. Non-literal translations are difficult to produce even for human translators, especially for foreign language learners, and machine translations are still on the way to simulate human ones on this aspect. In order to foster the study on appropriate and creative non-literal translations, automatically detecting them in parallel corpora is an important step, which can benefit downstream NLP tasks or help to construct materials to teach translation. This article demonstrates that generic sentence representations produced by a pre-trained cross-lingual language model could be fine-tuned to solve this task. We show that there exists a moderate positive correlation between the prediction probability of being human translation and the non-literal translations’ proportion in a sentence. The fine-tuning experiments show an accuracy of 80.16% when predicting the presence of non-literal translations in a sentence and an accuracy of 85.20% when distinguishing literal and non-literal translations at phrase level. We further conduct a linguistic error analysis and propose directions for future work.

pdf bib abs

La réécriture monolingue ou bilingue facilite-t-elle la compréhension ? (Does monolingual or bilingual rewriting facilitate comprehension ?)
Yuming Zhai | Gabriel Illouz | Anne Vilnat
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles

La capacité en compréhension écrite est importante à développer pour les apprenants de langues étrangères. Cet article présente une expérience pour vérifier si les paraphrases fournies en contexte facilitent la compréhension des apprenants. Les paraphrases ont été extraites automatiquement d’un corpus parallèle bilingue. Suite à l’analyse des résultats, nous proposons des pistes d’enrichissement d’un outil conçu préalablement, pour automatiser la sélection de réécritures dans un futur travail, tout en caractérisant mieux différents types de réécritures.

2019

pdf bib abs

Classification automatique des procédés de traduction (Automatic Classification of Translation Processes)
Yuming Zhai | Gabriel Illouz | Anne Vilnat
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume II : Articles courts

En vue de distinguer la traduction littérale des autres procédés de traduction, des traducteurs et linguistes ont proposé plusieurs typologies pour caractériser les différents procédés de traduction, tels que l’équivalence idiomatique, la généralisation, la particularisation, la modulation sémantique, etc. En revanche, les techniques d’extraction de paraphrases à partir de corpus parallèles bilingues n’ont pas exploité ces informations. Dans ce travail, nous proposons une classification automatique des procédés de traduction en nous basant sur des exemples annotés manuellement dans un corpus parallèle (anglais-français) de TED Talks. Même si le jeu de données est petit, les résultats expérimentaux sont encourageants, et les expériences montrent la direction à suivre dans les futurs travaux.

2016

pdf bib abs

Évaluation de l’apprentissage incrémental par analogie (Incremental Learning From Scratch Using Analogical Reasoning )
Vincent Letard | Gabriel Illouz | Sophie Rosset
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Articles longs)

Cet article examine l’utilisation du raisonnement analogique dans le contexte de l’apprentissage incrémental. Le problème d’apprentissage sous-jacent développé est le transfert de requêtes formulées en langue naturelle vers des commandes dans un langage de programmation. Nous y explorons deux questions principales : Comment se comporte le raisonnement par analogie dans le contexte de l’apprentissage incrémental ? De quelle manière la séquence d’apprentissage influence-t-elle la performance globale ? Pour y répondre, nous proposons un protocole expérimental simulant deux utilisateurs et différentes séquences d’apprentissage. Nous montrons que l’ordre dans la séquence d’apprentissage incrémental n’a d’influence notable que sous des conditions spécifiques. Nous constatons également la complémentarité de l’apprentissage incrémental avec l’analogie pour un nombre d’exemples d’apprentissage minimal.

2014

pdf bib abs

Multiple Choice Question Corpus Analysis for Distractor Characterization
Van-Minh Pho | Thibault André | Anne-Laure Ligozat | Brigitte Grau | Gabriel Illouz | Thomas François
Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)

In this paper, we present a study of MCQ aiming to define criteria in order to automatically select distractors. We are aiming to show that distractor editing follows rules like syntactic and semantic homogeneity according to associated answer, and the possibility to automatically identify this homogeneity. Manual analysis shows that homogeneity rule is respected to edit distractors and automatic analysis shows the possibility to reproduce these criteria. These ones can be used in future works to automatically select distractors, with the combination of other criteria.

pdf bib

A Mapping-Based Approach for General Formal Human Computer Interaction Using Natural Language
Vincent Letard | Sophie Rosset | Gabriel Illouz
Proceedings of the ACL 2014 Student Research Workshop

2013

pdf bib

LIMSI’s participation to the 2013 shared task on Native Language Identification
Thomas Lavergne | Gabriel Illouz | Aurélien Max | Ryo Nagata
Proceedings of the Eighth Workshop on Innovative Use of NLP for Building Educational Applications

2012

pdf bib abs

A contrastive review of paraphrase acquisition techniques
Houda Bouamor | Aurélien Max | Gabriel Illouz | Anne Vilnat
Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12)

This paper addresses the issue of what approach should be used for building a corpus of sententential paraphrases depending on one's requirements. Six strategies are studied: (1) multiple translations into a single language from another language; (2) multiple translations into a single language from different other languages; (3) multiple descriptions of short videos; (4) multiple subtitles for the same language; (5) headlines for similar news articles; and (6) sub-sentential paraphrasing in the context of a Web-based game. We report results on French for 50 paraphrase pairs collected for all these strategies, where corpora were manually aligned at the finest possible level to define oracle performance in terms of accessible sub-sentential paraphrases. The differences observed will be used as criteria for motivating the choice of a given approach before attempting to build a new paraphrase corpus.

pdf bib

Validation sur le Web de reformulations locales: application à la Wikipédia (Assisted Rephrasing for Wikipedia Contributors through Web-based Validation) [in French]
Houda Bouamor | Aurélien Max | Gabriel Illouz | Anne Vilnat
Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 2: TALN

2011

pdf bib

Web-based Validation for Contextual Targeted Paraphrasing
Houda Bouamor | Aurélien Max | Gabriel Illouz | Anne Vilnat
Proceedings of the Workshop on Monolingual Text-To-Text Generation

2005

pdf bib abs

Ritel : un système de dialogue homme-machine à domaine ouvert
Olivier Galibert | Gabriel Illouz | Sophie Rosset
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

L’objectif du projet RITEL est de réaliser un système de dialogue homme-machine permettant à un utilisateur de poser oralement des questions, et de dialoguer avec un système de recherche d’information généraliste (par exemple, chercher sur l’Internet “Qui est le Président du Sénat ?”) et d’en étudier les potentialités. Actuellement, la plateforme RITEL permet de collecter des corpus de dialogue homme-machine. Les utilisateurs peuvent parfois obtenir une réponse, de type factuel (Q : qui est le président de la France ; R : Jacques Chirac.). Cet article présente brièvement la plateforme développée, le corpus collecté ainsi que les questions que soulèvent un tel système et quelques unes des premières solutions envisagées.

2004

pdf bib abs

Cet article présente l’annotation en constituants menée dans le cadre d’un protocole d’évaluation des analyseurs syntaxiques (mis au point dans le pré-projet PEAS, puis dans le projet EASY). Le choix des constituants est décrit en détail et une première évaluation effectuée à partir des résultats de deux analyseurs est donnée.

pdf bib abs

This paper presents EASY (Evaluation of Analyzers of SYntax), an ongoing evaluation campaign of syntactic parsing of French, a subproject of EVALDA in the French TECHNOLANGUE program. After presenting the elaboration of the annotation formalism, we describe the corpus building steps, the annotation tools, the evaluation measures and finally, plans to produce a validated large linguistic resource, syntactically annotated

2003

pdf bib

2002

pdf bib abs

Le système de question-réponse QALC utilise les documents sélectionnés par un moteur de recherche pour la question posée, les sépare en phrases afin de comparer chaque phrase avec la question, puis localise la réponse soit en détectant l’entité nommée recherchée, soit en appliquant des patrons syntaxiques d’extraction de la réponse, sortes de schémas figés de réponse pour un type donné de question. Les patrons d’extraction que nous avons définis se fondent sur la notion de focus, qui est l’élément important de la question, celui qui devra se trouver dans la phrase réponse. Dans cet article, nous décrirons comment nous déterminons le focus dans la question, puis comment nous l’utilisons dans l’appariement question-phrase et pour la localisation de la réponse dans les phrases les plus pertinentes retenues.

pdf bib

2001

pdf bib

Terminological Variants for Document Selection and Question/Answer Matching
Olivier Ferret | Brigitte Grau | Martine Hurault-Plantet | Gabriel Illouz | Christian Jacquemin
Proceedings of the ACL 2001 Workshop on Open-Domain Question Answering

pdf bib abs

Utilisation des entités nommées et des variantes terminologiques dans un système de question-réponse
Olivier Ferret | Brigitte Grau | Martine Hurault-Plantet | Gabriel Illouz | Christian Jacquemin
Actes de la 8ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Nous présentons dans cet article le système QALC qui a participé à la tâche Question Answering de la conférence d’évaluation TREC. Ce système repose sur un ensemble de modules de Traitement Automatique des Langues (TAL) intervenant essentiellement en aval d’un moteur de recherche opérant sur un vaste ensemble de documents : typage des questions, reconnaissance des entités nommées, extraction et reconnaissance de termes, simples et complexes, et de leurs variantes. Ces traitements permettent soit de mieux sélectionner ces documents, soit de décider quelles sont les phrases susceptibles de contenir la réponse à une question.