MMAC: A Multilingual, Multimodal Alignment Framework for Cultural Grounding Evaluation

Weihua Zheng; Zhengyuan Liu; Tanmoy Chakraborty; Weiwen Xu; Xiaoxue Gao; Bryan Chen Zhengyu Tan; Bowei Zou (邹博伟); Chang Liu; Yujia Hu; Xing Xie; Xiaoyuan Yi; Jing Yao; Chaojun Wang; Long Li; Rui Liu; Huiyao Liu; Koji Inoue; Ryuichi Sumida; Tatsuya Kawahara; Fan Xu (徐凡); Lingyu Ye; Wei Tian; Dongjun Kim; Jimin Jung; Jaehyung Seo; Nadya Yuki Wangsajaya; Pham Minh Duc; Ojasva Saxena; Palash Nandi; Xiyan Tao; Wiwik Karlina; Tuan Luong; Keertana Arun Vasan; Roy Ka-Wei Lee; Nancy Chen

MMAC: A Multilingual, Multimodal Alignment Framework for Cultural Grounding Evaluation

Weihua Zheng, Zhengyuan Liu, Tanmoy Chakraborty, Weiwen Xu, Xiaoxue Gao, Bryan Chen Zhengyu Tan, Bowei Zou, Chang Liu, Yujia Hu, Xing Xie, Xiaoyuan Yi, Jing Yao, Chaojun Wang, Long Li, Rui Liu, Huiyao Liu, Koji Inoue, Ryuichi Sumida, Tatsuya Kawahara, Fan Xu, Lingyu Ye, Wei Tian, Dongjun Kim, Jimin Jung, Jaehyung Seo, Nadya Yuki Wangsajaya, Pham Minh Duc, Ojasva Saxena, Palash Nandi, Xiyan Tao, Wiwik Karlina, Tuan Luong, Keertana Arun Vasan, Roy Ka-Wei Lee, Nancy F. Chen

Abstract

The global deployment of Large Language Models (LLMs) underscores the urgent need to evaluate their cultural alignment. However, assessing genuine "cultural awareness" across modalities (text, vision, speech) and languages remains a significant challenge. To comprehensively investigate this domain, we propose MMAC, a systematic framework that encompasses a tri-modally aligned cultural benchmark creation pipeline and a five-dimensional evaluation protocol to assess cross-country awareness disparities, evaluate cross-lingual and cross-modal consistency, and verify cultural knowledge generalization and grounding validity. Given the prevailing Western cultural bias in current models, we focus on 8 Asian countries as our dataset foundation to more acutely reveal potential cultural deficiencies in LLMs. Our dataset, MMAC-bench, features 27,000 human-curated questions across 10 languages. Crucially, it is the first dataset aligned at the input level across text, image, and speech, enabling direct cross-modal transfer tests. Each question consists of multiple-choice options accompanied by open-ended generated explanations, where 79% require multi-step reasoning grounded in cultural context, moving beyond simple memorization. We probe the causes of modal divergence, offering insights into fostering culturally robust MLLMs.

Anthology ID:: 2026.acl-long.989
Volume:: Proceedings of the 64th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: ACL
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 21667–21709
Language:
URL:: https://aclanthology.org/2026.acl-long.989/
DOI:
Bibkey:
Cite (ACL):: Weihua Zheng, Zhengyuan Liu, Tanmoy Chakraborty, Weiwen Xu, Xiaoxue Gao, Bryan Chen Zhengyu Tan, Bowei Zou, Chang Liu, Yujia Hu, Xing Xie, Xiaoyuan Yi, Jing Yao, Chaojun Wang, Long Li, Rui Liu, Huiyao Liu, Koji Inoue, Ryuichi Sumida, Tatsuya Kawahara, Fan Xu, Lingyu Ye, Wei Tian, Dongjun Kim, Jimin Jung, Jaehyung Seo, Nadya Yuki Wangsajaya, Pham Minh Duc, Ojasva Saxena, Palash Nandi, Xiyan Tao, Wiwik Karlina, Tuan Luong, Keertana Arun Vasan, Roy Ka-Wei Lee, and Nancy F. Chen. 2026. MMAC: A Multilingual, Multimodal Alignment Framework for Cultural Grounding Evaluation. In Proceedings of the 64th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 21667–21709, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: MMAC: A Multilingual, Multimodal Alignment Framework for Cultural Grounding Evaluation (Zheng et al., ACL 2026)
Copy Citation:
PDF:: https://aclanthology.org/2026.acl-long.989.pdf
Checklist:: 2026.acl-long.989.checklist.pdf

PDF Cite Search Checklist Fix data