Jamendo-MT-QA: A Benchmark for Multi-Track Comparative Music Question Answering

Junyoung Koh; Jaeyun Lee; Soo Yong Kim; Gyu Hyeong Choi; Jung In Koh; Jordan Phillips; Yeonjin Lee; Min Song

Jamendo-MT-QA: A Benchmark for Multi-Track Comparative Music Question Answering

Junyoung Koh, Jaeyun Lee, Soo Yong Kim, Gyu Hyeong Choi, Jung In Koh, Jordan Phillips, Yeonjin Lee, Min Song

Abstract

Recent work on music question answering (Music-QA) has primarily focused on single-track understanding, where models answer questions about an individual audio clip using its tags, captions, or metadata. However, listeners often describe music in comparative terms, and existing benchmarks do not systematically evaluate reasoning across multiple tracks. Building on the Jamendo-QA dataset, we introduce Jamendo-MT-QA, a dataset and benchmark for multi-track comparative question answering. From Creative Commons-licensed tracks on Jamendo, we construct 36,519 comparative QA items over 12,173 track pairs, with each pair yielding three question types: yes/no, short-answer, and sentence-level questions. We describe an LLM-assisted pipeline for generating and filtering comparative questions, and benchmark representative audio-language models using both automatic metrics and LLM-as-a-Judge evaluation.

Anthology ID:: 2026.findings-acl.125
Volume:: Findings of the Association for Computational Linguistics: ACL 2026
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 2612–2631
Language:
URL:: https://aclanthology.org/2026.findings-acl.125/
DOI:
Bibkey:
Cite (ACL):: Junyoung Koh, Jaeyun Lee, Soo Yong Kim, Gyu Hyeong Choi, Jung In Koh, Jordan Phillips, Yeonjin Lee, and Min Song. 2026. Jamendo-MT-QA: A Benchmark for Multi-Track Comparative Music Question Answering. In Findings of the Association for Computational Linguistics: ACL 2026, pages 2612–2631, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: Jamendo-MT-QA: A Benchmark for Multi-Track Comparative Music Question Answering (Koh et al., Findings 2026)
Copy Citation:
PDF:: https://aclanthology.org/2026.findings-acl.125.pdf
Checklist:: 2026.findings-acl.125.checklist.pdf

PDF Cite Search Checklist Fix data