Jonathan Chevelu

2025

Paraphrase Generation Evaluation Powered by an LLM: A Semantic Metric, Not a Lexical One
Quentin Lemesle | Jonathan Chevelu | Philippe Martin | Damien Lolive | Arnaud Delhay | Nelly Barbot
Proceedings of the 31st International Conference on Computational Linguistics

Evaluating automatic paraphrase production systems is a difficult task as it involves, among other things, assessing the semantic proximity between two sentences. Usual measures are based on lexical distances, or at least on semantic embedding alignments. The rise of Large Language Models (LLM) has provided tools to model relationships within a text thanks to the attention mechanism. In this article, we introduce ParaPLUIE, a new measure based on a log likelihood ratio from an LLM, to assess the quality of a potential paraphrase. This measure is compared with usual measures on two known by the NLP community datasets prior to this study. Three new small datasets have been built to allow metrics to be compared in different scenario and to avoid data contamination bias. According to evaluations, the proposed measure is better for sorting pairs of sentences by semantic proximity. In particular, it is much more independent to lexical distance and provides an interpretable classification threshold between paraphrases and non-paraphrases.

2024

pdf bib abs

ParaPLUIE - une mesure automatique d’évaluation de la qualité sémantique des systèmes de paraphrases
Quentin Lemesle | Jonathan Chevelu | Damien Lolive | Arnaud Delhay-Lorrain | Philippe Martin
Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position

L’évaluation des systèmes de production automatique de paraphrases est une tâche difficile car elle implique, entre autre, d’évaluer la proximité sémantique entre deux phrases. Les mesures traditionnelles s’appuient sur des distances lexicales, ou au mieux des alignements de plongements sémantiques. Dans cet article nous étudions certaines de ces mesures sur des corpus de paraphrases et de non-paraphrases reconnus pour leurs qualités ou difficultés sur cette tâche. Nous proposons une nouvelle mesure, ParaPLUIE, s’appuyant sur l’utilisation d’un grand modèle de langue. D’après nos expériences, celui-ci est plus à même de trier les paires de phrases par proximité sémantique.

2022

pdf bib

Techniques de synthèse vocale neuronale à l’épreuve des données d’apprentissage non dédiées : les livres audio amateurs en français [Neural speech synthesis techniques put to the test with non-dedicated training data: amateur French audio books]
Aghilas Sini | Lily Wadoux | Antoine Perquin | Gaëlle Vidal | David Guennec | Damien Lolive | Pierre Alain | Nelly Barbot | Jonathan Chevelu | Arnaud Delhay
Traitement Automatique des Langues, Volume 63, Numéro 2 : Traitement automatique des langues intermodal et multimodal [Cross-modal and multimodal natural language processing]

2021

pdf bib abs

Neural-Driven Search-Based Paraphrase Generation
Betty Fabre | Tanguy Urvoy | Jonathan Chevelu | Damien Lolive
Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume

We study a search-based paraphrase generation scheme where candidate paraphrases are generated by iterated transformations from the original sentence and evaluated in terms of syntax quality, semantic distance, and lexical distance. The semantic distance is derived from BERT, and the lexical quality is based on GPT2 perplexity. To solve this multi-objective search problem, we propose two algorithms: Monte-Carlo Tree Search For Paraphrase Generation (MCPG) and Pareto Tree Search (PTS). We provide an extensive set of experiments on 5 datasets with a rigorous reproduction and validation for several state-of-the-art paraphrase generation algorithms. These experiments show that, although being non explicitly supervised, our algorithms perform well against these baselines.

2020

pdf bib abs

Children have less linguistic skills than adults, which makes it more difficult for them to understand some texts, for instance when browsing the Internet. In this context, we present a novel method which predicts the minimal age from which a text can be understood. This method analyses each sentence of a text using a recurrent neural network, and then aggregates this information to provide the text-level prediction. Different approaches are proposed and compared to baseline models, at sentence and text levels. Experiments are carried out on a corpus of 1, 500 texts and 160K sentences. Our best model, based on LSTMs, outperforms state-of-the-art results and achieves mean absolute errors of 1.86 and 2.28, at sentence and text levels, respectively.

pdf bib abs

FlexEval, création de sites web légers pour des campagnes de tests perceptifs multimédias (FlexEval, creation of light websites for multimedia perceptual test campaigns)
Cédric Fayet | Alexis Blond | Grégoire Coulombel | Claude Simon | Damien Lolive | Gwénolé Lecorvé | Jonathan Chevelu | Sébastien Le Maguer
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 4 : Démonstrations et résumés d'articles internationaux

Nous présentons FlexEval, un outil de conception et déploiement de tests perceptifs multimédias sous la forme d’un site web léger. S’appuyant sur des technologies standards et ouvertes du web, notamment le framework Flask, FlexEval offre une grande souplesse de conception, des gages de pérennité, ainsi que le support de communautés actives d’utilisateurs. L’application est disponible en open-source via le dépôt Git https://gitlab.inria.fr/expression/tools/flexeval.

2018

pdf bib abs

Construction conjointe d’un corpus et d’un classifieur pour les registres de langue en français (Joint building of a corpus and a classifier for language registers in French)
Gwénolé Lecorvé | Hugo Ayats | Fournier Benoît | Jade Mekki | Jonathan Chevelu | Delphine Battistelli | Nicolas Béchet
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN

Les registres de langue sont un trait stylistique marquant dans l’appréciation d’un texte ou d’un discours. Cependant, il sont encore peu étudiés en traitement automatique des langues. Dans cet article, nous présentons une approche semi-supervisée permettant la construction conjointe d’un corpus de textes étiquetés en registres et d’un classifieur associé. Cette approche s’appuie sur un ensemble initial et restreint de données expertes. Via une collecte automatique et massive de pages web, l’approche procède par itérations en alternant l’apprentissage d’un classifieur intermédiaire et l’annotation de nouveaux textes pour augmenter le corpus étiqueté. Nous appliquons cette approche aux registres familier, courant et soutenu. À l’issue du processus de construction, le corpus étiqueté regroupe 800 000 textes et le classifieur, un réseau de neurones, présente un taux de bonne classification de 87 %.

2016

pdf bib abs

Se concentrer sur les différences : une méthode d’évaluation subjective efficace pour la comparaison de systèmes de synthèse (Focus on differences : a subjective evaluation method to efficiently compare TTS systems * )
Jonathan Chevelu | Damien Lolive | Sébastien Le Maguer | David Guennec
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 1 : JEP

En proposant une nouvelle approche de synthèse de la parole, les études comportent généralement une évaluation subjective d’échantillons acoustiques produits par un système de référence et un nouveau système. Ces échantillons sont produits à partir d’un petit ensemble de phrases choisies aléatoirement dans un unique domaine. Ainsi, statistiquement, des échantillons pratiquement identiques sont présentés et réduisent les écarts de mesure entre les systèmes, au risque de les considérer comme non significatifs. Pour éviter cette problématique méthodologique, nous comparons deux systèmes sur des milliers d’échantillons de différents domaines. L’évaluation est réalisée uniquement sur les paires d’échantillons les plus pertinentes, c’est-à-dire les plus différentes acoustiquement. Cette méthode est appliquée sur un système de synthèse de type HTS et un second par sélection d’unités. La comparaison avec l’approche classique montre que cette méthode révèle des écarts qui jusqu’alors n’étaient pas significatifs.

2015

pdf bib

Large Linguistic Corpus Reduction with SCP Algorithms
Nelly Barbot | Olivier Boëffard | Jonathan Chevelu | Arnaud Delhay
Computational Linguistics, Volume 41, Issue 3 - September 2015

2014

pdf bib abs

ROOTS: a toolkit for easy, fast and consistent processing of large sequential annotated data collections
Jonathan Chevelu | Gwénolé Lecorvé | Damien Lolive
Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)

The development of new methods for given speech and natural language processing tasks usually consists in annotating large corpora of data before applying machine learning techniques to train models or to extract information. Beyond scientific aspects, creating and managing such annotated data sets is a recurrent problem. While using human annotators is obviously expensive in time and money, relying on automatic annotation processes is not a simple solution neither. Typically, the high diversity of annotation tools and of data formats, as well as the lack of efficient middleware to interface them all together, make such processes very complex and painful to design. To circumvent this problem, this paper presents the toolkit ROOTS, a freshly released open source toolkit (http://roots-toolkit.gforge.inria.fr) for easy, fast and consistent management of heterogeneously annotated data. ROOTS is designed to efficiently handle massive complex sequential data and to allow quick and light prototyping, as this is often required for research purposes. To illustrate these properties, three sample applications are presented in the field of speech and language processing, though ROOTS can more generally be easily extended to other application domains.

2010

pdf bib abs

L’évaluation des paraphrases : pour une prise en compte de la tâche
Jonathan Chevelu | Yves Lepage | Thierry Moudenc | Ghislain Putois
Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Les définitions des paraphrases privilégient généralement la conservation du sens. Cet article démontre par l’absurde qu’une évaluation uniquement basée sur la conservation du sens permet à un système inutile de production de paraphrase d’être jugé meilleur qu’un système au niveau de l’état de l’art. La conservation du sens n’est donc pas l’unique critère des paraphrases. Nous exhibons les trois objectifs des paraphrases : la conservation du sens, la naturalité et l’adaptation à la tâche. La production de paraphrase est alors un compromis dépendant de la tâche entre ces trois critères et ceux-ci doivent être pris en compte lors des évaluations.

pdf bib

The True Score of Statistical Paraphrase Generation
Jonathan Chevelu | Ghislain Putois | Yves Lepage
Coling 2010: Posters

2009

pdf bib

Introduction of a new paraphrase generation tool based on Monte-Carlo sampling
Jonathan Chevelu | Thomas Lavergne | Yves Lepage | Thierry Moudenc
Proceedings of the ACL-IJCNLP 2009 Conference Short Papers

2008

pdf bib abs

Comparing Set-Covering Strategies for Optimal Corpus Design
Jonathan Chevelu | Nelly Barbot | Olivier Boeffard | Arnaud Delhay
Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC'08)

This article is interested in the problem of the linguistic content of a speech corpus. Depending on the target task, the phonological and linguistic content of the corpus is controlled by collecting a set of sentences which covers a preset description of phonological attributes under the constraint of an overall duration as small as possible. This goal is classically achieved by greedy algorithms which however do not guarantee the optimality of the desired cover. In recent works, a lagrangian-based algorithm, called LamSCP, has been used to extract coverings of diphonemes from a large corpus in French, giving better results than a greedy algorithm. We propose to keep comparing both algorithms in terms of the shortest duration, stability and robustness by achieving multi-represented diphoneme or triphoneme covering. These coverings correspond to very large scale optimization problems, from a corpus in English. For each experiment, LamSCP improves the greedy results from 3.9 to 9.7 percent.

Venues

eacl1

ijcnlp1

tal1

Fix author