Multilingual Idioms in Sentences and Conversations Across High-, Medium-, and Low-Resource Languages

Saeed Almheiri; Bilal Elbouardi; Salsabila Zahirah Pranida; Irina Nikishina; Ashwath Rao B; Parameswari Krishnamurthy; Muhammad Cendekia Airlangga; Rifo Ahmad Genadi; Nguyen Phan Gia Bao; Amir Hossein Yari; Hawau Olamide Toyin; Nurdaulet Mukhituly; Mena Attia; Besher Hassan; Ahmad Fathan Hidayatullah; Tatsuki Kuribayashi; Haonan Li; Suma Bhat; Fajri Koto

Multilingual Idioms in Sentences and Conversations Across High-, Medium-, and Low-Resource Languages

Saeed Almheiri, Bilal Elbouardi, Salsabila Zahirah Pranida, Irina Nikishina, Ashwath Rao B, Parameswari Krishnamurthy, Muhammad Cendekia Airlangga, Rifo Ahmad Genadi, Nguyen Phan Gia Bao, Amir Hossein Yari, Hawau Olamide Toyin, Nurdaulet Mukhituly, Mena Attia, Besher Hassan, Ahmad Fathan Hidayatullah, Tatsuki Kuribayashi, Haonan Li, Suma Bhat, Fajri Koto

Abstract

Idiomatic expressions pose a major challenge for multilingual NLP because their meanings shift between figurative and literal usage, often requiring context for accurate interpretation. Prior work has focused on high-resource languages typically evaluates isolated idiom-meaning questions, overlooking realistic discourse. We introduce MIDI, a multilingual idiom dataset spanning 3 high-, 3 medium-, and 12 low-resource languages, curated by native speakers. Unlike previous datasets, MIDI provides idioms embedded in both sentence-level and conversational contexts, capturing both literal and figurative readings. Benchmarking state-of-the-art models shows that idiom comprehension degrades in low-resource languages and that, in all resource tiers, literal interpretations are substantially harder than figurative ones. Conversational context improves performance but does not eliminate these disparities. Through controlled tests and interventions on hidden representations, we further separate memorization from reasoning, exposing core limitations of current models.

Anthology ID:: 2026.acl-long.564
Volume:: Proceedings of the 64th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: ACL
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 12363–12389
Language:
URL:: https://aclanthology.org/2026.acl-long.564/
DOI:
Bibkey:
Cite (ACL):: Saeed Almheiri, Bilal Elbouardi, Salsabila Zahirah Pranida, Irina Nikishina, Ashwath Rao B, Parameswari Krishnamurthy, Muhammad Cendekia Airlangga, Rifo Ahmad Genadi, Nguyen Phan Gia Bao, Amir Hossein Yari, Hawau Olamide Toyin, Nurdaulet Mukhituly, Mena Attia, Besher Hassan, Ahmad Fathan Hidayatullah, Tatsuki Kuribayashi, Haonan Li, Suma Bhat, and Fajri Koto. 2026. Multilingual Idioms in Sentences and Conversations Across High-, Medium-, and Low-Resource Languages. In Proceedings of the 64th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 12363–12389, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: Multilingual Idioms in Sentences and Conversations Across High-, Medium-, and Low-Resource Languages (Almheiri et al., ACL 2026)
Copy Citation:
PDF:: https://aclanthology.org/2026.acl-long.564.pdf
Checklist:: 2026.acl-long.564.checklist.pdf

PDF Cite Search Checklist Fix data