Victor Connes
2021
DEFT 2021: Évaluation automatique de réponses courtes, une approche basée sur la sélection de traits lexicaux et augmentation de données (DEFT 2021 : Automatic short answer grading, a lexical features selection and data augmentation based approach)
Timothée Poulain
|
Victor Connes
Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Atelier DÉfi Fouille de Textes (DEFT)
Cet article présente la participation de l’équipe Proofreaders du LS2N au DÉfi Fouille de Textes 2021 (DEFT 2021). La tâche proposée consiste en la poursuite automatique de l’évaluation de réponses courtes d’étudiants (EAQRC) à partir de quelques réponses déjà corrigées par l’enseignant pour chaque énoncé. Une étude comparative de différents traits lexicaux, ainsi qu’une augmentation artificielle de données et de différents modèles de régression pour la notation des réponses courtes est réalisée. Les méthodes sont évaluées en termes de précision, d’erreur quadratique moyenne et de score de corrélation de Spearman. Notre erreur quadratique moyenne varie entre 0.090 et 0.101 et notre précision entre 0.147 et 0.17. Le code source est disponible à l’adresse suivante : https://github.com/poulain-tim/DEFT_2021
2019
Apprentissage de plongements lexicaux par une approche réseaux complexes (Complex networks based word embeddings)
Victor Connes
|
Nicolas Dugué
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume I : Articles longs
La littérature des réseaux complexes a montré la pertinence de l’étude de la langue sous forme de réseau pour différentes applications : désambiguïsation, résumé automatique, classification des langues, etc. Cette même littérature a démontré que les réseaux de co-occurrences de mots possèdent une structure de communautés latente. Nous formulons l’hypothèse que cette structuration du réseau sous forme de communautés est utile pour travailler sur la sémantique d’une langue et introduisons donc dans cet article une méthode d’apprentissage de plongements originale basée sur cette hypothèse. Cette hypothèse est cohérente avec la proximité qui existe entre la détection de communautés sur un réseau de co-occurrences et la factorisation d’une matrice de co-occurrences, méthode couramment utilisée pour l’apprentissage de plongements lexicaux. Nous décrivons notre méthode structurée en trois étapes : construction et pré-traitement du réseau, détection de la structure de communautés, construction des plongements de mots à partir de cette structure. Après avoir décrit cette nouvelle méthodologie, nous montrons la pertinence de notre approche avec des premiers résultats d’évaluation sur les tâches de catégorisation et de similarité. Enfin, nous discutons des perspectives importantes d’un tel modèle issu des réseaux complexes : les dimensions du modèle (les communautés) semblent interprétables, l’apprentissage est rapide, la construction d’un nouveau plongement est presque instantanée, et il est envisageable d’en expérimenter une version incrémentale pour travailler sur des corpus textuels temporels.
Search