ToolBeHonest: A Multi-level Hallucination Diagnostic Benchmark for Tool-Augmented Large Language Models

ToolBeHonest: A Multi-level Hallucination Diagnostic Benchmark for Tool-Augmented Large Language Models Yuxiang Zhang author Jing Chen author Junjie Wang author Yaxin Liu author Cheng Yang author Chufan Shi author Xinyu Zhu author Zihao Lin author Hanwen Wan author Yujiu Yang author Tetsuya Sakai author Tian Feng author Hayato Yamana author 2024-11 text Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing Yaser Al-Onaizan editor Mohit Bansal editor Yun-Nung Chen editor Association for Computational Linguistics Miami, Florida, USA conference publication zhang-etal-2024-toolbehonest 10.18653/v1/2024.emnlp-main.637 https://aclanthology.org/2024.emnlp-main.637/ 2024-11 11388 11422