Arnaud Delhay-Lorrain


2024

L’évaluation des systèmes de production automatique de paraphrases est une tâche difficile car elle implique, entre autre, d’évaluer la proximité sémantique entre deux phrases. Les mesures traditionnelles s’appuient sur des distances lexicales, ou au mieux des alignements de plongements sémantiques. Dans cet article nous étudions certaines de ces mesures sur des corpus de paraphrases et de non-paraphrases reconnus pour leurs qualités ou difficultés sur cette tâche. Nous proposons une nouvelle mesure, ParaPLUIE, s’appuyant sur l’utilisation d’un grand modèle de langue. D’après nos expériences, celui-ci est plus à même de trier les paires de phrases par proximité sémantique.