Can LLMs Judge Debates? Evaluating Non-Linear Reasoning via Argumentation Theory Semantics

Reza Sanayei; Srdjan Vesic; Eduardo Blanco; Mihai Surdeanu

Can LLMs Judge Debates? Evaluating Non-Linear Reasoning via Argumentation Theory Semantics

Reza Sanayei, Srdjan Vesic, Eduardo Blanco, Mihai Surdeanu

Abstract

Large Language Models (LLMs) excel at linear reasoning tasks but remain underexplored on non-linear structures such as those found in natural debates, which are best expressed as argument graphs. We evaluate whether LLMs can approximate structured reasoning from Computational Argumentation Theory (CAT). Specifically, we use Quantitative Argumentation Debate (QuAD) semantics, which assigns acceptability scores to arguments based on their attack and support relations. Given only dialogue-formatted debates from two NoDE datasets, models are prompted to rank arguments without access to the underlying graph. We test several LLMs under advanced instruction strategies, including Chain-of-Thought and In-Context Learning. While models show moderate alignment with QuAD rankings, performance degrades with longer inputs or disrupted discourse flow. Advanced prompting helps mitigate these effects by reducing biases related to argument length and position. Our findings highlight both the promise and limitations of LLMs in modeling formal argumentation semantics and motivate future work on graph-aware reasoning.

Anthology ID:: 2025.findings-emnlp.1159
Volume:: Findings of the Association for Computational Linguistics: EMNLP 2025
Month:: November
Year:: 2025
Address:: Suzhou, China
Editors:: Christos Christodoulopoulos, Tanmoy Chakraborty, Carolyn Rose, Violet Peng
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 21244–21262
Language:
URL:: https://aclanthology.org/2025.findings-emnlp.1159/
DOI:
Bibkey:
Cite (ACL):: Reza Sanayei, Srdjan Vesic, Eduardo Blanco, and Mihai Surdeanu. 2025. Can LLMs Judge Debates? Evaluating Non-Linear Reasoning via Argumentation Theory Semantics. In Findings of the Association for Computational Linguistics: EMNLP 2025, pages 21244–21262, Suzhou, China. Association for Computational Linguistics.
Cite (Informal):: Can LLMs Judge Debates? Evaluating Non-Linear Reasoning via Argumentation Theory Semantics (Sanayei et al., Findings 2025)
Copy Citation:
PDF:: https://aclanthology.org/2025.findings-emnlp.1159.pdf
Checklist:: 2025.findings-emnlp.1159.checklist.pdf

PDF Cite Search Checklist Fix data