DoCIA: An Online Document-Level Context Incorporation Agent for Speech Translation

Xinglin Lyu; Wei Tang; Yuang Li; Xiaofeng Zhao; Ming Zhu; Junhui Li (李军辉); Yunfei Lu; Min Zhang; Daimeng Wei; Hao Yang; Min Zhang

doi:10.18653/v1/2025.findings-acl.771

DoCIA: An Online Document-Level Context Incorporation Agent for Speech Translation

Xinglin Lyu, Wei Tang, Yuang Li, Xiaofeng Zhao, Ming Zhu, Junhui Li, Yunfei Lu, Min Zhang, Daimeng Wei, Hao Yang, Min Zhang

Abstract

Document-level context is crucial for handling discourse challenges in text-to-text document-level machine translation (MT). Despite the increased discourse challenges introduced by noise from automatic speech recognition (ASR), the integration of document-level context in speech translation (ST) remains insufficiently explored. In this paper, we develop DoCIA, an online framework that enhances ST performance by incorporating document-level context. DoCIA decomposes the ST pipeline into four stages. Document-level context is integrated into the ASR refinement, MT, and MT refinement stages through auxiliary LLM (large language model)-based modules. Furthermore, DoCIA leverages document-level information in a multi-level manner while minimizing computational overhead. Additionally, a simple yet effective determination mechanism is introduced to prevent hallucinations from excessive refinement, ensuring the reliability of the final results. Experimental results show that DoCIA significantly outperforms traditional ST baselines in both sentence and discourse metrics across four LLMs, demonstrating its effectiveness in improving ST performance.

Anthology ID:: 2025.findings-acl.771
Volume:: Findings of the Association for Computational Linguistics: ACL 2025
Month:: July
Year:: 2025
Address:: Vienna, Austria
Editors:: Wanxiang Che, Joyce Nabende, Ekaterina Shutova, Mohammad Taher Pilehvar
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 14910–14924
Language:
URL:: https://aclanthology.org/2025.findings-acl.771/
DOI:: 10.18653/v1/2025.findings-acl.771
Bibkey:
Cite (ACL):: Xinglin Lyu, Wei Tang, Yuang Li, Xiaofeng Zhao, Ming Zhu, Junhui Li, Yunfei Lu, Min Zhang, Daimeng Wei, Hao Yang, and Min Zhang. 2025. DoCIA: An Online Document-Level Context Incorporation Agent for Speech Translation. In Findings of the Association for Computational Linguistics: ACL 2025, pages 14910–14924, Vienna, Austria. Association for Computational Linguistics.
Cite (Informal):: DoCIA: An Online Document-Level Context Incorporation Agent for Speech Translation (Lyu et al., Findings 2025)
Copy Citation:
PDF:: https://aclanthology.org/2025.findings-acl.771.pdf

PDF Cite Search Fix data