Pixel-Level Reasoning Segmentation via Multi-turn Conversations

Dexian Cai; Xiaocui Yang; Yongkang Liu; Daling Wang; Shi Feng; Yifei Zhang; Soujanya Poria

doi:10.18653/v1/2025.acl-long.864

Pixel-Level Reasoning Segmentation via Multi-turn Conversations

Dexian Cai, Xiaocui Yang, YongKang Liu, Daling Wang, Shi Feng, Yifei Zhang, Soujanya Poria

Abstract

Existing visual perception systems focus on region-level segmentation in single-turn dialogues, relying on complex and explicit query instructions. Such systems cannot reason at the pixel level and comprehend dynamic user intent that changes over interaction. Our work tackles this issue by introducing a novel task, Pixel-level Reasoning Segmentation (Pixel-level RS) based on multi-turn conversations, tracking evolving user intent via multi-turn interactions for fine-grained segmentation. To establish a benchmark for this novel task, we build a Pixel-level ReasonIng Segmentation Dataset Based on Multi-Turn Conversations (PRIST), comprising 24k utterances from 8.3k multi-turn conversational scenarios with segmentation targets. Building on PRIST, we further propose MIRAS, a Multi-turn Interactive ReAsoning Segmentation framework, integrates pixel-level segmentation with robust multi-turn conversation understanding, generating pixel-grounded explanations aligned with user intent. The PRIST dataset and MIRSA framework fill the gap in pixel-level reasoning segmentation. Experimental results on the PRIST dataset demonstrate that our method outperforms current segmentation-specific baselines in terms of segmentation and LLM-based reasoning metrics. The code and data are available at: https://anonymous.4open.science/r/PixelRS/.

Anthology ID:: 2025.acl-long.864
Volume:: Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)
Month:: July
Year:: 2025
Address:: Vienna, Austria
Editors:: Wanxiang Che, Joyce Nabende, Ekaterina Shutova, Mohammad Taher Pilehvar
Venue:: ACL
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 17660–17679
Language:
URL:: https://aclanthology.org/2025.acl-long.864/
DOI:: 10.18653/v1/2025.acl-long.864
Bibkey:
Cite (ACL):: Dexian Cai, Xiaocui Yang, YongKang Liu, Daling Wang, Shi Feng, Yifei Zhang, and Soujanya Poria. 2025. Pixel-Level Reasoning Segmentation via Multi-turn Conversations. In Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 17660–17679, Vienna, Austria. Association for Computational Linguistics.
Cite (Informal):: Pixel-Level Reasoning Segmentation via Multi-turn Conversations (Cai et al., ACL 2025)
Copy Citation:
PDF:: https://aclanthology.org/2025.acl-long.864.pdf

PDF Cite Search Fix data