Beyond Modality Collapse: Taming Guided Modality Entropy for Omni-modal Emotion Reasoning

Xian Zhao; Rui Hu; Yuxiang Zhang (张宇翔); Delai Qiu; Yining Wang; Shengping Liu; Jian Yu (于剑); Jitao Sang (桑基韬)

Beyond Modality Collapse: Taming Guided Modality Entropy for Omni-modal Emotion Reasoning

Xian Zhao, Rui Hu, Yuxiang Zhang, Delai Qiu, Yining Wang, Shengping Liu, Jian Yu, Jitao Sang

Abstract

Omni-modal Large Language Models (OLLMs) excel in diverse tasks but struggle with complex emotional reasoning, which requires integrating textual, visual, and acoustic signals. We attribute this limitation to modality collapse, where models over-rely on a dominant modality while neglecting complementary cues. To address this issue, we introduce OmniCoT, a data paradigm that interleaves guided tokens (e.g., [vision], [audio]) into reasoning traces to enforce structured evidence extraction. To further internalize the reasoning behaviors instilled by OmniCoT and facilitate adaptive modality prioritization, we propose Dynamic Modality-Entropy GRPO (DyME-GRPO), which utilizes entropy-based uncertainty estimates over Guided Tokens (GTs) to regulate modality usage, thereby mitigating collapse and informational redundancy. By applying supervised fine-tuning with OmniCoT followed by DyME-GRPO, we develop EmoOmni based on the Qwen2.5-Omni-7B backbone. Extensive experiments demonstrate that EmoOmni achieves state-of-the-art performance on multiple emotion recognition and reasoning benchmarks while preserving the general capabilities of the base model. These findings highlight the potential of our work for omni-modal reasoning across a broader range of complex tasks.

Anthology ID:: 2026.findings-acl.1044
Volume:: Findings of the Association for Computational Linguistics: ACL 2026
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 20830–20845
Language:
URL:: https://aclanthology.org/2026.findings-acl.1044/
DOI:
Bibkey:
Cite (ACL):: Xian Zhao, Rui Hu, Yuxiang Zhang, Delai Qiu, Yining Wang, Shengping Liu, Jian Yu, and Jitao Sang. 2026. Beyond Modality Collapse: Taming Guided Modality Entropy for Omni-modal Emotion Reasoning. In Findings of the Association for Computational Linguistics: ACL 2026, pages 20830–20845, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: Beyond Modality Collapse: Taming Guided Modality Entropy for Omni-modal Emotion Reasoning (Zhao et al., Findings 2026)
Copy Citation:
PDF:: https://aclanthology.org/2026.findings-acl.1044.pdf
Checklist:: 2026.findings-acl.1044.checklist.pdf

PDF Cite Search Checklist Fix data