Un corpus annoté pour la génération de questions et l’extraction de réponses pour l’enseignement (An annotated corpus for abstractive question generation and extractive answer for education)

Thomas Gerald; Sofiane Ettayeb; Ha Quang Le; Anne Vilnat; Gabriel Illouz; Patrick Paroubek

Un corpus annoté pour la génération de questions et l’extraction de réponses pour l’enseignement (An annotated corpus for abstractive question generation and extractive answer for education)

Thomas Gerald, Sofiane Ettayeb, Ha Quang Le, Anne Vilnat, Gabriel Illouz, Patrick Paroubek

Abstract

Dans cette démonstration, nous présenterons les travaux en cours pour l’annotation d’un nouveau corpus de questions-réponses en langue Française. Contrairement aux corpus existant comme “FQuad” ou “Piaf”, nous nous intéressons à l’annotation de questions-réponses “non factuelles”. En effet, si dans la littérature, de nombreux corpus et modèles de questions-réponses pré-entraînés sont disponibles, ceux-ci ne privilégient que rarement les annotations s’appuyant sur un schéma de raisonnement issue de l’agrégation de différentes sources ou contextes. L’objectif du projet associé est de parvenir à la création d’un assistant virtuel pour l’éducation, ainsi des réponses explicatives, de raisonnement et/ou d’agrégation de l’information sont à privilégier. Notons enfin, que la volumétrie des données doit être conséquente, en particulier par la considération d’approches neuronales génératives ou extractives. Actuellement, nous disposons de 262 questions et réponses obtenues durant l’étape de validation de la campagne d’annotation. Une deuxième phase d’annotation avec une volumétrie plus importante débutera fin mai 2022 (environ 8000 questions).

Anthology ID:: 2022.jeptalnrecital-demo.5
Volume:: Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 3 : Démonstrations
Month:: 6
Year:: 2022
Address:: Avignon, France
Editors:: Yannick Estève, Tania Jiménez, Titouan Parcollet, Marcely Zanon Boito
Venue:: JEP/TALN/RECITAL
SIG:
Publisher:: ATALA
Note:
Pages:: 15–17
Language:: French
URL:: https://aclanthology.org/2022.jeptalnrecital-demo.5/
DOI:
Bibkey:
Cite (ACL):: Thomas Gerald, Sofiane Ettayeb, Ha Quang Le, Anne Vilnat, Gabriel Illouz, and Patrick Paroubek. 2022. Un corpus annoté pour la génération de questions et l’extraction de réponses pour l’enseignement (An annotated corpus for abstractive question generation and extractive answer for education). In Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 3 : Démonstrations, pages 15–17, Avignon, France. ATALA.
Cite (Informal):: Un corpus annoté pour la génération de questions et l’extraction de réponses pour l’enseignement (An annotated corpus for abstractive question generation and extractive answer for education) (Gerald et al., JEP/TALN/RECITAL 2022)
Copy Citation:
PDF:: https://aclanthology.org/2022.jeptalnrecital-demo.5.pdf

PDF Cite Search Fix data