Alignements divisifs de textes parallèles: données, algorithme et évaluation

Joanna Radoła; François Yvon

Alignements divisifs de textes parallèles: données, algorithme et évaluation

Abstract

Nous présentons Alibi - un corpus d’alignements hiérarchiques sous-phrastiques français-anglais, annoté manuellement à l’aide d’une stratégie divisive. Nous comparons globalement les alignements ainsi obtenus avec plusieurs corpus parallèles alignés mot-à-mot et étalonnons sa difficulté en réalisant des alignements automatiques par des méthodes de l’état de l’art. Nous proposons également un algorithme exploitant des représentations neuronales des mots et des groupes de mots afin de repro- duire les alignements hiérarchiques de référence. Enfin, nous proposons une métrique d’évaluation des arbres d’alignement avec laquelle nous comparons les performances de plusieurs variantes de l’algorithme d’alignement, obtenues en faisant varier les mesures d’appariemment de groupes de mots. Nos résultats montrent que (a) les arbres d’alignements de référence sont très ambigus et difficiles à reproduire automatiquement, cependant, les alignements mot-à-mot sont prédits de manière fiable ; (b) l’utilisation d’alternatives à la similarité cosinus pour évaluer l’appariemment de blocs permet d’améliorer significativement les résultats du système de base.

Anthology ID:: 2025.jeptalnrecital-taln.5
Volume:: Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux
Month:: 6
Year:: 2025
Address:: Marseille, France
Editors:: Frédéric Bechet, Adrian-Gabriel Chifu, Karen Pinel-sauvagnat, Benoit Favre, Eliot Maes, Diana Nurbakova
Venue:: JEP/TALN/RECITAL
SIG:
Publisher:: ATALA \\& ARIA
Note:
Pages:: 84–99
Language:: French
URL:: https://aclanthology.org/2025.jeptalnrecital-taln.5/
DOI:
Bibkey:
Cite (ACL):: Joanna Radoła and François Yvon. 2025. Alignements divisifs de textes parallèles: données, algorithme et évaluation. In Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux, pages 84–99, Marseille, France. ATALA \\& ARIA.
Cite (Informal):: Alignements divisifs de textes parallèles: données, algorithme et évaluation (Radoła & Yvon, JEP/TALN/RECITAL 2025)
Copy Citation:
PDF:: https://aclanthology.org/2025.jeptalnrecital-taln.5.pdf

PDF Cite Search Fix data