@inproceedings{wang-etal-2021-mesure,
title = "Mesure de similarit{\'e} textuelle pour l'{\'e}valuation automatique de copies d'{\'e}tudiants (Textual similarity measurement for automatic evaluation of students' answers)",
author = "Wang, Xiaoou and
Liu, Xingyu and
Yue, Yimei",
editor = "Grouin, Cyril and
Grabar, Natalia and
Illouz, Gabriel",
booktitle = "Actes de la 28e Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles. Atelier D{\'E}fi Fouille de Textes (DEFT)",
month = "6",
year = "2021",
address = "Lille, France",
publisher = "ATALA",
url = "https://aclanthology.org/2021.jeptalnrecital-deft.7/",
pages = "63--71",
language = "fra",
abstract = "Cet article d{\'e}crit la participation de l'{\'e}quipe Nantalco {\`a} la t{\^a}che 2 du D{\'e}fi Fouille de Textes 2021 (DEFT) : {\'e}valuation automatique de copies d`apr{\`e}s une r{\'e}f{\'e}rence existante. Nous avons utilis{\'e} principalement des traits bas{\'e}s sur la similarit{\'e} cosinus des deux vecteurs repr{\'e}sentant la similarit{\'e} textuelle entre des r{\'e}ponses d'{\'e}tudiant et la r{\'e}f{\'e}rence. Plusieurs types de vecteurs ont {\'e}t{\'e} utilis{\'e}s (vecteur d`occurrences de mots, vecteur tf-idf, embeddings non contextualis{\'e}s de fastText, embeddings contextualis{\'e}s de CamemBERT et enfin Sentence Embeddings Multilingues ajust{\'e}s sur des corpus multilingues). La meilleure performance du concours sur cette t{\^a}che a {\'e}t{\'e} de 0.682 (pr{\'e}cision) et celle de notre {\'e}quipe 0.639. Cette performance a {\'e}t{\'e} obtenue avec les Sentence Embeddings Multilingues alors que celle des embeddings non ajust{\'e}s ne s`est {\'e}lev{\'e}e qu'{\`a} 0.55, sugg{\'e}rant que de r{\'e}cents mod{\`e}les de langues pr{\'e}-entra{\^i}n{\'e}s doivent {\^e}tre fine-tun{\'e}s afin d`avoir des embeddings ad{\'e}quats au niveau phrastique."
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="wang-etal-2021-mesure">
<titleInfo>
<title>Mesure de similarité textuelle pour l’évaluation automatique de copies d’étudiants (Textual similarity measurement for automatic evaluation of students’ answers)</title>
</titleInfo>
<name type="personal">
<namePart type="given">Xiaoou</namePart>
<namePart type="family">Wang</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Xingyu</namePart>
<namePart type="family">Liu</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Yimei</namePart>
<namePart type="family">Yue</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2021-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Atelier DÉfi Fouille de Textes (DEFT)</title>
</titleInfo>
<name type="personal">
<namePart type="given">Cyril</namePart>
<namePart type="family">Grouin</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Natalia</namePart>
<namePart type="family">Grabar</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Gabriel</namePart>
<namePart type="family">Illouz</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA</publisher>
<place>
<placeTerm type="text">Lille, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Cet article décrit la participation de l’équipe Nantalco à la tâche 2 du Défi Fouille de Textes 2021 (DEFT) : évaluation automatique de copies d‘après une référence existante. Nous avons utilisé principalement des traits basés sur la similarité cosinus des deux vecteurs représentant la similarité textuelle entre des réponses d’étudiant et la référence. Plusieurs types de vecteurs ont été utilisés (vecteur d‘occurrences de mots, vecteur tf-idf, embeddings non contextualisés de fastText, embeddings contextualisés de CamemBERT et enfin Sentence Embeddings Multilingues ajustés sur des corpus multilingues). La meilleure performance du concours sur cette tâche a été de 0.682 (précision) et celle de notre équipe 0.639. Cette performance a été obtenue avec les Sentence Embeddings Multilingues alors que celle des embeddings non ajustés ne s‘est élevée qu’à 0.55, suggérant que de récents modèles de langues pré-entraînés doivent être fine-tunés afin d‘avoir des embeddings adéquats au niveau phrastique.</abstract>
<identifier type="citekey">wang-etal-2021-mesure</identifier>
<location>
<url>https://aclanthology.org/2021.jeptalnrecital-deft.7/</url>
</location>
<part>
<date>2021-6</date>
<extent unit="page">
<start>63</start>
<end>71</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Mesure de similarité textuelle pour l’évaluation automatique de copies d’étudiants (Textual similarity measurement for automatic evaluation of students’ answers)
%A Wang, Xiaoou
%A Liu, Xingyu
%A Yue, Yimei
%Y Grouin, Cyril
%Y Grabar, Natalia
%Y Illouz, Gabriel
%S Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Atelier DÉfi Fouille de Textes (DEFT)
%D 2021
%8 June
%I ATALA
%C Lille, France
%G fra
%F wang-etal-2021-mesure
%X Cet article décrit la participation de l’équipe Nantalco à la tâche 2 du Défi Fouille de Textes 2021 (DEFT) : évaluation automatique de copies d‘après une référence existante. Nous avons utilisé principalement des traits basés sur la similarité cosinus des deux vecteurs représentant la similarité textuelle entre des réponses d’étudiant et la référence. Plusieurs types de vecteurs ont été utilisés (vecteur d‘occurrences de mots, vecteur tf-idf, embeddings non contextualisés de fastText, embeddings contextualisés de CamemBERT et enfin Sentence Embeddings Multilingues ajustés sur des corpus multilingues). La meilleure performance du concours sur cette tâche a été de 0.682 (précision) et celle de notre équipe 0.639. Cette performance a été obtenue avec les Sentence Embeddings Multilingues alors que celle des embeddings non ajustés ne s‘est élevée qu’à 0.55, suggérant que de récents modèles de langues pré-entraînés doivent être fine-tunés afin d‘avoir des embeddings adéquats au niveau phrastique.
%U https://aclanthology.org/2021.jeptalnrecital-deft.7/
%P 63-71
Markdown (Informal)
[Mesure de similarité textuelle pour l’évaluation automatique de copies d’étudiants (Textual similarity measurement for automatic evaluation of students’ answers)](https://aclanthology.org/2021.jeptalnrecital-deft.7/) (Wang et al., JEP/TALN/RECITAL 2021)
ACL