PEACH: Pre-Training Sequence-to-Sequence Multilingual Models for Translation with Semi-Supervised Pseudo-Parallel Document Generation

Alireza Salemi; Amirhossein Abaskohi; Sara Tavakoli; Azadeh Shakery; Yadollah Yaghoobzadeh

doi:10.18653/v1/2023.loresmt-1.3

PEACH: Pre-Training Sequence-to-Sequence Multilingual Models for Translation with Semi-Supervised Pseudo-Parallel Document Generation

Alireza Salemi, Amirhossein Abaskohi, Sara Tavakoli, Azadeh Shakery, Yadollah Yaghoobzadeh

Abstract

Multilingual pre-training significantly improves many multilingual NLP tasks, including machine translation. Most existing methods are based on some variants of masked language modeling and text-denoising objectives on monolingual data. Multilingual pre-training on monolingual data ignores the availability of parallel data in many language pairs. Also, some other works integrate the available human-generated parallel translation data in their pre-training. This kind of parallel data is definitely helpful, but it is limited even in high-resource language pairs. This paper introduces a novel semi-supervised method, SPDG, that generates high-quality pseudo-parallel data for multilingual pre-training. First, a denoising model is pre-trained on monolingual data to reorder, add, remove, and substitute words, enhancing the pre-training documents’ quality. Then, we generate different pseudo-translations for each pre-training document using dictionaries for word-by-word translation and applying the pre-trained denoising model. The resulting pseudo-parallel data is then used to pre-train our multilingual sequence-to-sequence model, PEACH. Our experiments show that PEACH outperforms existing approaches used in training mT5 and mBART on various translation tasks, including supervised, zero- and few-shot scenarios. Moreover, PEACH’s ability to transfer knowledge between similar languages makes it particularly useful for low-resource languages. Our results demonstrate that with high-quality dictionaries for generating accurate pseudo-parallel, PEACH can be valuable for low-resource languages.

Anthology ID:: 2023.loresmt-1.3
Volume:: Proceedings of the Sixth Workshop on Technologies for Machine Translation of Low-Resource Languages (LoResMT 2023)
Month:: May
Year:: 2023
Address:: Dubrovnik, Croatia
Editors:: Atul Kr. Ojha, Chao-hong Liu, Ekaterina Vylomova, Flammie Pirinen, Jade Abbott, Jonathan Washington, Nathaniel Oco, Valentin Malykh, Varvara Logacheva, Xiaobing Zhao
Venue:: LoResMT
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 32–46
Language:
URL:: https://aclanthology.org/2023.loresmt-1.3
DOI:: 10.18653/v1/2023.loresmt-1.3
Bibkey:
Cite (ACL):: Alireza Salemi, Amirhossein Abaskohi, Sara Tavakoli, Azadeh Shakery, and Yadollah Yaghoobzadeh. 2023. PEACH: Pre-Training Sequence-to-Sequence Multilingual Models for Translation with Semi-Supervised Pseudo-Parallel Document Generation. In Proceedings of the Sixth Workshop on Technologies for Machine Translation of Low-Resource Languages (LoResMT 2023), pages 32–46, Dubrovnik, Croatia. Association for Computational Linguistics.
Cite (Informal):: PEACH: Pre-Training Sequence-to-Sequence Multilingual Models for Translation with Semi-Supervised Pseudo-Parallel Document Generation (Salemi et al., LoResMT 2023)
Copy Citation:
PDF:: https://aclanthology.org/2023.loresmt-1.3.pdf
Video:: https://aclanthology.org/2023.loresmt-1.3.mp4

PDF Cite Search Video