@inproceedings{gerald-etal-2022-un,
title = "Un corpus annot{\'e} pour la g{\'e}n{\'e}ration de questions et l{'}extraction de r{\'e}ponses pour l{'}enseignement (An annotated corpus for abstractive question generation and extractive answer for education)",
author = "Gerald, Thomas and
Ettayeb, Sofiane and
Quang Le, Ha and
Vilnat, Anne and
Illouz, Gabriel and
Paroubek, Patrick",
editor = "Est{\`e}ve, Yannick and
Jim{\'e}nez, Tania and
Parcollet, Titouan and
Zanon Boito, Marcely",
booktitle = "Actes de la 29e Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles. Volume 3 : D{\'e}monstrations",
month = "6",
year = "2022",
address = "Avignon, France",
publisher = "ATALA",
url = "https://aclanthology.org/2022.jeptalnrecital-demo.5",
pages = "15--17",
abstract = "Dans cette d{\'e}monstration, nous pr{\'e}senterons les travaux en cours pour l{'}annotation d{'}un nouveau corpus de questions-r{\'e}ponses en langue Fran{\c{c}}aise. Contrairement aux corpus existant comme {``}FQuad{''} ou {``}Piaf{''}, nous nous int{\'e}ressons {\`a} l{'}annotation de questions-r{\'e}ponses {``}non factuelles{''}. En effet, si dans la litt{\'e}rature, de nombreux corpus et mod{\`e}les de questions-r{\'e}ponses pr{\'e}-entra{\^\i}n{\'e}s sont disponibles, ceux-ci ne privil{\'e}gient que rarement les annotations s{'}appuyant sur un sch{\'e}ma de raisonnement issue de l{'}agr{\'e}gation de diff{\'e}rentes sources ou contextes. L{'}objectif du projet associ{\'e} est de parvenir {\`a} la cr{\'e}ation d{'}un assistant virtuel pour l{'}{\'e}ducation, ainsi des r{\'e}ponses explicatives, de raisonnement et/ou d{'}agr{\'e}gation de l{'}information sont {\`a} privil{\'e}gier. Notons enfin, que la volum{\'e}trie des donn{\'e}es doit {\^e}tre cons{\'e}quente, en particulier par la consid{\'e}ration d{'}approches neuronales g{\'e}n{\'e}ratives ou extractives. Actuellement, nous disposons de 262 questions et r{\'e}ponses obtenues durant l{'}{\'e}tape de validation de la campagne d{'}annotation. Une deuxi{\`e}me phase d{'}annotation avec une volum{\'e}trie plus importante d{\'e}butera fin mai 2022 (environ 8000 questions).",
language = "French",
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="gerald-etal-2022-un">
<titleInfo>
<title>Un corpus annoté pour la génération de questions et l’extraction de réponses pour l’enseignement (An annotated corpus for abstractive question generation and extractive answer for education)</title>
</titleInfo>
<name type="personal">
<namePart type="given">Thomas</namePart>
<namePart type="family">Gerald</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Sofiane</namePart>
<namePart type="family">Ettayeb</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Ha</namePart>
<namePart type="family">Quang Le</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Anne</namePart>
<namePart type="family">Vilnat</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Gabriel</namePart>
<namePart type="family">Illouz</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Patrick</namePart>
<namePart type="family">Paroubek</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2022-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">French</languageTerm>
<languageTerm type="code" authority="iso639-2b">fre</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 3 : Démonstrations</title>
</titleInfo>
<name type="personal">
<namePart type="given">Yannick</namePart>
<namePart type="family">Estève</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Tania</namePart>
<namePart type="family">Jiménez</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Titouan</namePart>
<namePart type="family">Parcollet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Marcely</namePart>
<namePart type="family">Zanon Boito</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA</publisher>
<place>
<placeTerm type="text">Avignon, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Dans cette démonstration, nous présenterons les travaux en cours pour l’annotation d’un nouveau corpus de questions-réponses en langue Française. Contrairement aux corpus existant comme “FQuad” ou “Piaf”, nous nous intéressons à l’annotation de questions-réponses “non factuelles”. En effet, si dans la littérature, de nombreux corpus et modèles de questions-réponses pré-entraînés sont disponibles, ceux-ci ne privilégient que rarement les annotations s’appuyant sur un schéma de raisonnement issue de l’agrégation de différentes sources ou contextes. L’objectif du projet associé est de parvenir à la création d’un assistant virtuel pour l’éducation, ainsi des réponses explicatives, de raisonnement et/ou d’agrégation de l’information sont à privilégier. Notons enfin, que la volumétrie des données doit être conséquente, en particulier par la considération d’approches neuronales génératives ou extractives. Actuellement, nous disposons de 262 questions et réponses obtenues durant l’étape de validation de la campagne d’annotation. Une deuxième phase d’annotation avec une volumétrie plus importante débutera fin mai 2022 (environ 8000 questions).</abstract>
<identifier type="citekey">gerald-etal-2022-un</identifier>
<location>
<url>https://aclanthology.org/2022.jeptalnrecital-demo.5</url>
</location>
<part>
<date>2022-6</date>
<extent unit="page">
<start>15</start>
<end>17</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Un corpus annoté pour la génération de questions et l’extraction de réponses pour l’enseignement (An annotated corpus for abstractive question generation and extractive answer for education)
%A Gerald, Thomas
%A Ettayeb, Sofiane
%A Quang Le, Ha
%A Vilnat, Anne
%A Illouz, Gabriel
%A Paroubek, Patrick
%Y Estève, Yannick
%Y Jiménez, Tania
%Y Parcollet, Titouan
%Y Zanon Boito, Marcely
%S Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 3 : Démonstrations
%D 2022
%8 June
%I ATALA
%C Avignon, France
%G French
%F gerald-etal-2022-un
%X Dans cette démonstration, nous présenterons les travaux en cours pour l’annotation d’un nouveau corpus de questions-réponses en langue Française. Contrairement aux corpus existant comme “FQuad” ou “Piaf”, nous nous intéressons à l’annotation de questions-réponses “non factuelles”. En effet, si dans la littérature, de nombreux corpus et modèles de questions-réponses pré-entraînés sont disponibles, ceux-ci ne privilégient que rarement les annotations s’appuyant sur un schéma de raisonnement issue de l’agrégation de différentes sources ou contextes. L’objectif du projet associé est de parvenir à la création d’un assistant virtuel pour l’éducation, ainsi des réponses explicatives, de raisonnement et/ou d’agrégation de l’information sont à privilégier. Notons enfin, que la volumétrie des données doit être conséquente, en particulier par la considération d’approches neuronales génératives ou extractives. Actuellement, nous disposons de 262 questions et réponses obtenues durant l’étape de validation de la campagne d’annotation. Une deuxième phase d’annotation avec une volumétrie plus importante débutera fin mai 2022 (environ 8000 questions).
%U https://aclanthology.org/2022.jeptalnrecital-demo.5
%P 15-17
Markdown (Informal)
[Un corpus annoté pour la génération de questions et l’extraction de réponses pour l’enseignement (An annotated corpus for abstractive question generation and extractive answer for education)](https://aclanthology.org/2022.jeptalnrecital-demo.5) (Gerald et al., JEP/TALN/RECITAL 2022)
ACL