Scaling Low-Resource MT via Synthetic Data Generation with LLMs

Ona de Gibert; Joseph Attieh; Teemu Vahtola; Mikko Aulamo; Zihao Li; Raúl Vázquez; Tiancheng Hu; Jörg Tiedemann

doi:10.18653/v1/2025.emnlp-main.1408

Scaling Low-Resource MT via Synthetic Data Generation with LLMs

Ona de Gibert, Joseph Attieh, Teemu Vahtola, Mikko Aulamo, Zihao Li, Raúl Vázquez, Tiancheng Hu, Jörg Tiedemann

Abstract

We investigate the potential of LLM-generated synthetic data for improving low-resource Machine Translation (MT). Focusing on seven diverse target languages, we construct a document-level synthetic corpus from English Europarl, and extend it via pivoting to 147 additional language pairs. Automatic and human evaluation confirm its overall high quality. We study its practical application by (i) identifying effective training regimes, (ii) comparing our data with the HPLT dataset, (iii) studying the effect of varying training data size, and (iiii) testing its utility beyond English-centric MT. Finally, we introduce SynOPUS, a public repository for synthetic parallel datasets. Our findings show that LLM-generated synthetic data, even when noisy, can substantially improve MT performance for low-resource languages.

Anthology ID:: 2025.emnlp-main.1408
Volume:: Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing
Month:: November
Year:: 2025
Address:: Suzhou, China
Editors:: Christos Christodoulopoulos, Tanmoy Chakraborty, Carolyn Rose, Violet Peng
Venue:: EMNLP
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 27674–27692
Language:
URL:: https://aclanthology.org/2025.emnlp-main.1408/
DOI:: 10.18653/v1/2025.emnlp-main.1408
Bibkey:
Cite (ACL):: Ona de Gibert, Joseph Attieh, Teemu Vahtola, Mikko Aulamo, Zihao Li, Raúl Vázquez, Tiancheng Hu, and Jörg Tiedemann. 2025. Scaling Low-Resource MT via Synthetic Data Generation with LLMs. In Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing, pages 27674–27692, Suzhou, China. Association for Computational Linguistics.
Cite (Informal):: Scaling Low-Resource MT via Synthetic Data Generation with LLMs (de Gibert et al., EMNLP 2025)
Copy Citation:
PDF:: https://aclanthology.org/2025.emnlp-main.1408.pdf
Checklist:: 2025.emnlp-main.1408.checklist.pdf

PDF Cite Search Checklist Fix data