CaMMT: Benchmarking Culturally Aware Multimodal Machine Translation

Emilio Villa-Cueva; Sholpan Bolatzhanova; Diana Turmakhan; Kareem Elzeky; Henok Biadglign Ademtew; Alham Fikri Aji; Vladimir Araujo; Israel Abebe Azime; Jinheon Baek; Frederico Belcavello; Fermin Cristobal; Jan Christian Blaise Cruz; Mary Dabre; Raj Dabre; Toqeer Ehsan; Naome A. Etori; Fauzan Farooqui; Jiahui Geng; Guido Ivetta; Thanmay Jayakumar; Soyeong Jeong; Zheng Wei Lim; Aishik Mandal; Sofía Martinelli; Mihail Minkov Mihaylov; Daniil Orel; Aniket Pramanick; Sukannya Purkayastha; Israfel Salazar; Haiyue Song; Tiago Timponi Torrent; Debela Desalegn Yadeta; Injy Hamed; Atnafu Lambebo Tonja; Thamar Solorio

doi:10.18653/v1/2025.findings-emnlp.1220

CaMMT: Benchmarking Culturally Aware Multimodal Machine Translation

Emilio Villa-Cueva, Sholpan Bolatzhanova, Diana Turmakhan, Kareem Elzeky, Henok Biadglign Ademtew, Alham Fikri Aji, Vladimir Araujo, Israel Abebe Azime, Jinheon Baek, Frederico Belcavello, Fermin Cristobal, Jan Christian Blaise Cruz, Mary Dabre, Raj Dabre, Toqeer Ehsan, Naome A Etori, Fauzan Farooqui, Jiahui Geng, Guido Ivetta, Thanmay Jayakumar, Soyeong Jeong, Zheng Wei Lim, Aishik Mandal, Sofía Martinelli, Mihail Minkov Mihaylov, Daniil Orel, Aniket Pramanick, Sukannya Purkayastha, Israfel Salazar, Haiyue Song, Tiago Timponi Torrent, Debela Desalegn Yadeta, Injy Hamed, Atnafu Lambebo Tonja, Thamar Solorio

Abstract

Translating cultural content poses challenges for machine translation systems due to the differences in conceptualizations between cultures, where language alone may fail to convey sufficient context to capture region-specific meanings. In this work, we investigate whether images can act as cultural context in multimodal translation. We introduce CaMMT, a human-curated benchmark of over 5,800 triples of images along with parallel captions in English and regional languages. Using this dataset, we evaluate five Vision Language Models (VLMs) in text-only and text+image settings. Through automatic and human evaluations, we find that visual context generally improves translation quality, especially in handling Culturally-Specific Items (CSIs), disambiguation, and correct gender marking. By releasing CaMMT, our objective is to support broader efforts to build and evaluate multimodal translation systems that are better aligned with cultural nuance and regional variations.

Anthology ID:: 2025.findings-emnlp.1220
Volume:: Findings of the Association for Computational Linguistics: EMNLP 2025
Month:: November
Year:: 2025
Address:: Suzhou, China
Editors:: Christos Christodoulopoulos, Tanmoy Chakraborty, Carolyn Rose, Violet Peng
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 22423–22441
Language:
URL:: https://aclanthology.org/2025.findings-emnlp.1220/
DOI:: 10.18653/v1/2025.findings-emnlp.1220
Bibkey:
Cite (ACL):: Emilio Villa-Cueva, Sholpan Bolatzhanova, Diana Turmakhan, Kareem Elzeky, Henok Biadglign Ademtew, Alham Fikri Aji, Vladimir Araujo, Israel Abebe Azime, Jinheon Baek, Frederico Belcavello, Fermin Cristobal, Jan Christian Blaise Cruz, Mary Dabre, Raj Dabre, Toqeer Ehsan, Naome A Etori, Fauzan Farooqui, Jiahui Geng, Guido Ivetta, Thanmay Jayakumar, Soyeong Jeong, Zheng Wei Lim, Aishik Mandal, Sofía Martinelli, Mihail Minkov Mihaylov, Daniil Orel, Aniket Pramanick, Sukannya Purkayastha, Israfel Salazar, Haiyue Song, Tiago Timponi Torrent, Debela Desalegn Yadeta, Injy Hamed, Atnafu Lambebo Tonja, and Thamar Solorio. 2025. CaMMT: Benchmarking Culturally Aware Multimodal Machine Translation. In Findings of the Association for Computational Linguistics: EMNLP 2025, pages 22423–22441, Suzhou, China. Association for Computational Linguistics.
Cite (Informal):: CaMMT: Benchmarking Culturally Aware Multimodal Machine Translation (Villa-Cueva et al., Findings 2025)
Copy Citation:
PDF:: https://aclanthology.org/2025.findings-emnlp.1220.pdf
Checklist:: 2025.findings-emnlp.1220.checklist.pdf

PDF Cite Search Checklist Fix data