Temporal-Linguistic Adaptive Streaming for Continuous Sign Language Translation

Arshia Kermani; Habib Irani; Deautaun Ross; Vangelis Metsis

Temporal-Linguistic Adaptive Streaming for Continuous Sign Language Translation

Arshia Kermani, Habib Irani, Deautaun Ross, Vangelis Metsis

Abstract

Real-time sign language translation must generate text incrementally as signs arrive, yet existing streaming policies treat glosses as a flat token sequence and discard the temporal rhythm of signing. Inter-gloss pauses reliably mark sentence boundaries in continuous discourse, but policies such as Wait-k cause arbitrary cross-boundary fragmentation. We propose Temporal-Linguistic Adaptive Streaming (TLAS), which fuses a Temporal Pause Detector (TPD, tracking inter-gloss interval statistics via an exponential moving average) and a Linguistic Readiness Estimator (LRE, a trained neural head on a frozen T5 encoder) through an Adaptive Fusion Gate (AFG). A proactive timeout fires before the next gloss arrives when the inter-gloss gap exceeds a threshold, producing clean sentence segmentation without oracle boundary information. We also contribute a synthetic discourse dataset of 1,400 ASL discourse groups with LLM-generated per-gloss timestamps and introduce a continuous-stream evaluation paradigm requiring autonomous boundary detection from an unbroken gloss stream. Under such conditions, TLAS significantly outperforms current heuristic baselines, such as Wait-k, and methods relying solely on linguistic content.

Anthology ID:: 2026.alvr-main.21
Volume:: Proceedings of the 4th Workshop on Advances in Language and Vision Research (ALVR)
Month:: July
Year:: 2026
Address:: San Diego, California, USA
Editors:: Qianqi Yan, Syrielle Montariol, Yue Fan, Jing Gu, Jiayi Pan, Manling Li, Parisa Kordjamshidi, Alane Suhr, Xin Eric Wang
Venues:: ALVR | WS
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 239–248
Language:
URL:: https://aclanthology.org/2026.alvr-main.21/
DOI:
Bibkey:
Cite (ACL):: Arshia Kermani, Habib Irani, Deautaun Ross, and Vangelis Metsis. 2026. Temporal-Linguistic Adaptive Streaming for Continuous Sign Language Translation. In Proceedings of the 4th Workshop on Advances in Language and Vision Research (ALVR), pages 239–248, San Diego, California, USA. Association for Computational Linguistics.
Cite (Informal):: Temporal-Linguistic Adaptive Streaming for Continuous Sign Language Translation (Kermani et al., ALVR 2026)
Copy Citation:
PDF:: https://aclanthology.org/2026.alvr-main.21.pdf

PDF Cite Search Fix data