Neural Machine Translation for Agglutinative Languages via Data Rejuvenation

Chen Zhao; Yatu Ji; Ren Qing-Dao-Er-Ji; Nier Wu; Lei Shi; Fu Liu; Yepai Jia

doi:10.18653/v1/2025.acl-srw.33

Neural Machine Translation for Agglutinative Languages via Data Rejuvenation

Chen Zhao, Yatu Ji, Ren Qing-Dao-Er-Ji, Nier Wu, Lei Shi, Fu Liu, Yepai Jia

Abstract

In Recent years, advances in Neural Machine Translation (NMT) heavily rely on large-scale parallel corpora. Within the context of China’s Belt and Road Initiative, there is increasing demand for improving translation quality from agglutinative languages (e.g., Mongolian, Arabic) to Chinese. However, the translation scenarios for agglutinative languages (which form words by concatenating morphemes with clear boundaries) face significant challenges including data sparsity, quality imbalance, and inactive sample proliferation due to their morphological complexity and syntactic flexibility. This study presents a systematic analysis of data distribution characteristics in agglutinative languages and proposes a dual-module framework combining fine-grained inactive sample identification with target-side rejuvenation. Our framework first establishes a multi-dimensional evaluation system to accurately identify samples exhibiting low-frequency morphological interference or long-range word order mismatches. Subsequently, the target-side rejuvenation mechanism generates diversified noise-resistant translations through iterative optimization of sample contribution weights. Experimental results on four low-resource agglutinative language tasks demonstrate significant performance improvements (BLEU +2.1–3.4) across mainstream NMT architectures. Architecture-agnostic validation further confirms the framework’s generalizability.

Anthology ID:: 2025.acl-srw.33
Original:: 2025.acl-srw.33v1
Version 2:: 2025.acl-srw.33v2
Volume:: Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 4: Student Research Workshop)
Month:: July
Year:: 2025
Address:: Vienna, Austria
Editors:: Jin Zhao, Mingyang Wang, Zhu Liu
Venues:: ACL | WS
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 508–516
Language:
URL:: https://aclanthology.org/2025.acl-srw.33/
DOI:: 10.18653/v1/2025.acl-srw.33
Bibkey:
Cite (ACL):: Chen Zhao, Yatu Ji, Ren Qing-Dao-Er-Ji, Nier Wu, Lei Shi, Fu Liu, and Yepai Jia. 2025. Neural Machine Translation for Agglutinative Languages via Data Rejuvenation. In Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 4: Student Research Workshop), pages 508–516, Vienna, Austria. Association for Computational Linguistics.
Cite (Informal):: Neural Machine Translation for Agglutinative Languages via Data Rejuvenation (Zhao et al., ACL 2025)
Copy Citation:
PDF:: https://aclanthology.org/2025.acl-srw.33.pdf

PDF (v2) PDF (v1) Cite Search Fix data