Sophie Roekhaut

2017

Human and Automated CEFR-based Grading of Short Answers
Anaïs Tack | Thomas François | Sophie Roekhaut | Cédrick Fairon
Proceedings of the 12th Workshop on Innovative Use of NLP for Building Educational Applications

This paper is concerned with the task of automatically assessing the written proficiency level of non-native (L2) learners of English. Drawing on previous research on automated L2 writing assessment following the Common European Framework of Reference for Languages (CEFR), we investigate the possibilities and difficulties of deriving the CEFR level from short answers to open-ended questions, which has not yet been subjected to numerous studies up to date. The object of our study is twofold: to examine the intricacy involved with both human and automated CEFR-based grading of short answers. On the one hand, we describe the compilation of a learner corpus of short answers graded with CEFR levels by three certified Cambridge examiners. We mainly observe that, although the shortness of the answers is reported as undermining a clear-cut evaluation, the length of the answer does not necessarily correlate with inter-examiner disagreement. On the other hand, we explore the development of a soft-voting system for the automated CEFR-based grading of short answers and draw tentative conclusions about its use in a computer-assisted testing (CAT) setting.

2016

pdf bib abs

Classification automatique de dictées selon leur niveau de difficulté de compréhension et orthographique (Automatic classification of dictations according to their complexity for comprehension and writing production)
Adeline Müller | Thomas Francois | Sophie Roekhaut | Cedrick Fairon
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Posters)

Cet article présente une approche visant à évaluer automatiquement la difficulté de dictées en vue de les intégrer dans une plateforme d’apprentissage de l’orthographe. La particularité de l’exercice de la dictée est de devoir percevoir du code oral et de le retranscrire via le code écrit. Nous envisageons ce double niveau de difficulté à l’aide de 375 variables mesurant la difficulté de compréhension d’un texte ainsi que les phénomènes orthographiques et grammaticaux complexes qu’il contient. Un sous-ensemble optimal de ces variables est combiné à l’aide d’un modèle par machines à vecteurs de support (SVM) qui classe correctement 56% des textes. Les variables lexicales basées sur la liste orthographique de Catach (1984) se révèlent les plus informatives pour le modèle.

2012

pdf bib

Variations prosodiques en synthèse par sélection d’unités: l’exemple des phrases interrogatives (Prosodic variations in unit-based speech synthesis: the example of interrogative sentences) [in French]
Laurence Martin | Sophie Roekhaut | Richard Beaufort
Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 1: JEP

2011

pdf bib

PLATON, Plateforme d’apprentissage et d’enseignement de l’orthographe sur le Net (PLATON, Spelling learning and teaching platform on the net)
Richard Beaufort | Sophie Roekhaut
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations

pdf bib abs

Le TAL au service de l’ALAO/ELAO L’exemple des exercices de dictée automatisés (The use of NLP in CALL The example of automated dictation exercises)
Richard Beaufort | Sophie Roekhaut
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Ce papier s’inscrit dans le cadre général de l’Apprentissage et de l’Enseignement des Langues Assistés par Ordinateur, et concerne plus particulièrement l’automatisation des exercices de dictée. Il présente une méthode de correction des copies d’apprenants qui se veut originale en deux points. Premièrement, la méthode exploite la composition d’automates à états finis pour détecter et pour analyser les erreurs. Deuxièmement, elle repose sur une analyse morphosyntaxique automatique de l’original de la dictée, ce qui facilite la production de diagnostics.

2010

pdf bib abs

Expressive : Génération automatique de parole expressive à partir de données non linguistiques
Olivier Blanc | Noémi Boubel | Jean-Philippe Goldman | Sophie Roekhaut | Anne Catherine Simon | Cédrick Fairon | Richard Beaufort
Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations

Nous présentons Expressive, un système de génération de parole expressive à partir de données non linguistiques. Ce système est composé de deux outils distincts : Taittingen, un générateur automatique de textes d’une grande variété lexico-syntaxique produits à partir d’une représentation conceptuelle du discours, et StyloPhone, un système de synthèse vocale multi-styles qui s’attache à rendre le discours produit attractif et naturel en proposant différents styles vocaux.

pdf bib abs

Une approche hybride traduction/correction pour la normalisation des SMS
Richard Beaufort | Sophie Roekhaut | Louise-Amélie Cougnon | Cédrick Fairon
Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Cet article présente une méthode hybride de normalisation des SMS, à mi-chemin entre correction orthographique et traduction automatique. La partie du système qui assure la normalisation utilise exclusivement des modèles entraînés sur corpus. Evalué en français par validation croisée, le système obtient un taux d’erreur au mot de 9.3% et un score BLEU de 0.83.

pdf bib

A Hybrid Rule/Model-Based Finite-State Framework for Normalizing SMS Messages
Richard Beaufort | Sophie Roekhaut | Louise-Amélie Cougnon | Cédrick Fairon
Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics