Confidence Estimation for LLMs in Multi-turn Interactions

Caiqi Zhang; Ruihan Yang; Xiaochen Zhu; Chengzu Li; Tiancheng Hu; Yijiang River Dong; Deqing Yang; Nigel Collier

Confidence Estimation for LLMs in Multi-turn Interactions

Caiqi Zhang, Ruihan Yang, Xiaochen Zhu, Chengzu Li, Tiancheng Hu, Yijiang River Dong, Deqing Yang, Nigel Collier

Abstract

While confidence estimation is a promising direction for mitigating hallucinations in Large Language Models (LLMs), current research overwhelmingly focuses on single-turn settings. The dynamics of model confidence in multi-turn conversations, where context accumulates and ambiguity is progressively resolved, remain largely unexplored. This work presents the first systematic study of confidence estimation in multi-turn interactions, establishing a formal evaluation framework grounded in two key desiderata: per-turn calibration and monotonicity of confidence as more information becomes available. To facilitate this, we introduce novel metrics, including a length-normalized Expected Calibration Error (InfoECE), and a new "Hinter-Guesser" paradigm for generating controlled evaluation datasets. Our experiments reveal that widely-used confidence techniques struggle with calibration and monotonicity in multi-turn dialogues. In contrast, a novel logit-based probe we introduce, P(Sufficient), proves comparatively more effective, robustly tracking evidence accumulation and distinguishing it from conversational filler. Our work provides a foundational methodology for developing more reliable and trustworthy conversational agents.

Anthology ID:: 2026.findings-acl.1280
Volume:: Findings of the Association for Computational Linguistics: ACL 2026
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 25661–25676
Language:
URL:: https://aclanthology.org/2026.findings-acl.1280/
DOI:
Bibkey:
Cite (ACL):: Caiqi Zhang, Ruihan Yang, Xiaochen Zhu, Chengzu Li, Tiancheng Hu, Yijiang River Dong, Deqing Yang, and Nigel Collier. 2026. Confidence Estimation for LLMs in Multi-turn Interactions. In Findings of the Association for Computational Linguistics: ACL 2026, pages 25661–25676, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: Confidence Estimation for LLMs in Multi-turn Interactions (Zhang et al., Findings 2026)
Copy Citation:
PDF:: https://aclanthology.org/2026.findings-acl.1280.pdf
Checklist:: 2026.findings-acl.1280.checklist.pdf

PDF Cite Search Checklist Fix data