Améliorer la traduction au niveau du document grâce au sur-echantillage négatif et au masquage ciblé

Gaëtan Caillaut, Mariam Nakhlé, Jingshu Liu, Raheel Qader


Abstract
Ces travaux visent à améliorer les capacités des systèmes de traduction automatique à tenir compte du contexte dans lequel se trouve la phrase source, et donc, ultimement, à améliorer les performances globales des systèmes de traduction automatique. L’approche que nous proposons repose uniquement sur les données et la manière dont elles sont fournies au modèle durant l’entraînement et est complètement agnostique de l’architecture du modèle. Nous montrons que les performances des modèles de traduction, sur la paire en-fr, peuvent être améliorées simplement en fournissant des données plus pertinentes vis-à-vis de la tâche cible, et ce sans modifier ni complexifier les architectures existantes, en particulier l’architecture Transformer couramment utilisée par les systèmes de TAL modernes. Pour ce faire, nous présentons deux stratégies d’augmentation de données (sur-échantillonnage négatif et masquage ciblé) conçues pour inciter le modèle à s’appuyer sur le contexte. Nous montrons, au travers de métriques appropriées, que ces méthodes permettent d’améliorer les performances des systèmes de traduction sans pour autant modifier ni l’architecture du modèle, ni le processus d’entraînement.
Anthology ID:
2024.jeptalnrecital-taln.20
Volume:
Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position
Month:
7
Year:
2024
Address:
Toulouse, France
Editors:
Mathieu Balaguer, Nihed Bendahman, Lydia-Mai Ho-dac, Julie Mauclair, Jose G Moreno, Julien Pinquier
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA and AFPC
Note:
Pages:
295–306
Language:
French
URL:
https://aclanthology.org/2024.jeptalnrecital-taln.20
DOI:
Bibkey:
Cite (ACL):
Gaëtan Caillaut, Mariam Nakhlé, Jingshu Liu, and Raheel Qader. 2024. Améliorer la traduction au niveau du document grâce au sur-echantillage négatif et au masquage ciblé. In Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position, pages 295–306, Toulouse, France. ATALA and AFPC.
Cite (Informal):
Améliorer la traduction au niveau du document grâce au sur-echantillage négatif et au masquage ciblé (Caillaut et al., JEP/TALN/RECITAL 2024)
Copy Citation:
PDF:
https://aclanthology.org/2024.jeptalnrecital-taln.20.pdf