Probing LLMs for Multilingual Discourse Generalization Through a Unified Label Set

Florian Eichin; Yang Janet Liu; Barbara Plank; Michael A. Hedderich

doi:10.18653/v1/2025.acl-long.915

Probing LLMs for Multilingual Discourse Generalization Through a Unified Label Set

Florian Eichin, Yang Janet Liu, Barbara Plank, Michael A. Hedderich

Abstract

Discourse understanding is essential for many NLP tasks, yet most existing work remains constrained by framework-dependent discourse representations. This work investigates whether large language models (LLMs) capture discourse knowledge that generalizes across languages and frameworks. We address this question along two dimensions: (1) developing a unified discourse relation label set to facilitate cross-lingual and cross-framework discourse analysis, and (2) probing LLMs to assess whether they encode generalizable discourse abstractions. Using multilingual discourse relation classification as a testbed, we examine a comprehensive set of 23 LLMs of varying sizes and multilingual capabilities. Our results show that LLMs, especially those with multilingual training corpora, can generalize discourse information across languages and frameworks. Further layer-wise analyses reveal that language generalization at the discourse level is most salient in the intermediate layers. Lastly, our error analysis provides an account of challenging relation classes.

Anthology ID:: 2025.acl-long.915
Volume:: Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)
Month:: July
Year:: 2025
Address:: Vienna, Austria
Editors:: Wanxiang Che, Joyce Nabende, Ekaterina Shutova, Mohammad Taher Pilehvar
Venue:: ACL
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 18665–18684
Language:
URL:: https://aclanthology.org/2025.acl-long.915/
DOI:: 10.18653/v1/2025.acl-long.915
Bibkey:
Cite (ACL):: Florian Eichin, Yang Janet Liu, Barbara Plank, and Michael A. Hedderich. 2025. Probing LLMs for Multilingual Discourse Generalization Through a Unified Label Set. In Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 18665–18684, Vienna, Austria. Association for Computational Linguistics.
Cite (Informal):: Probing LLMs for Multilingual Discourse Generalization Through a Unified Label Set (Eichin et al., ACL 2025)
Copy Citation:
PDF:: https://aclanthology.org/2025.acl-long.915.pdf

PDF Cite Search Fix data