Train a Unified Multimodal Data Quality Classifier with Synthetic Data

Weizhi Wang; Rongmei Lin; Shiyang Li; Colin Lockard; Ritesh Sarkhel; Sanket Lokegaonkar; Jingbo Shang; Xifeng Yan; Nasser Zalmout; Xian Li

Train a Unified Multimodal Data Quality Classifier with Synthetic Data

Weizhi Wang, Rongmei Lin, Shiyang Li, Colin Lockard, Ritesh Sarkhel, Sanket Lokegaonkar, Jingbo Shang, Xifeng Yan, Nasser Zalmout, Xian Li

Abstract

The Multimodal Large Language Models (MLLMs) are continually pre-trained on a mixture of image-text caption data and interleaved document data, while the high-quality data filtering towards image-text interleaved document data is under-explored. We propose to train an efficient MLLM as a Unified Mulitmodal Data Quality Classifier to Filter both high-quality image-text caption and interleaved data (UniFilter). To address the challenge of collecting diverse labeled multimodal data, we introduce a semi-synthetic approach that leverages readily available raw images and generates corresponding text across four quality levels. This method enables efficient creation of sample-score pairs for both caption and interleaved document data to train UniFilter. We apply UniFilter to curate high-quality caption data from DataComp caption dataset and interleaved data from the OBELICS image-text interleaved dataset. MLLMs pre-trained on the filtered data demonstrate significantly enhanced capabilities compared to those trained on baseline-filtered data, achieving stronger zero-shot reasoning and in-context learning capabilities. After visual supervised fine-tuning, these UniFilter-induced MLLMs achieve stronger performance on various benchmarks, highlighting the downstream benefits of high-quality multimodal pre-training.

Anthology ID:: 2025.findings-emnlp.104
Volume:: Findings of the Association for Computational Linguistics: EMNLP 2025
Month:: November
Year:: 2025
Address:: Suzhou, China
Editors:: Christos Christodoulopoulos, Tanmoy Chakraborty, Carolyn Rose, Violet Peng
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 1972–1986
Language:
URL:: https://aclanthology.org/2025.findings-emnlp.104/
DOI:
Bibkey:
Cite (ACL):: Weizhi Wang, Rongmei Lin, Shiyang Li, Colin Lockard, Ritesh Sarkhel, Sanket Lokegaonkar, Jingbo Shang, Xifeng Yan, Nasser Zalmout, and Xian Li. 2025. Train a Unified Multimodal Data Quality Classifier with Synthetic Data. In Findings of the Association for Computational Linguistics: EMNLP 2025, pages 1972–1986, Suzhou, China. Association for Computational Linguistics.
Cite (Informal):: Train a Unified Multimodal Data Quality Classifier with Synthetic Data (Wang et al., Findings 2025)
Copy Citation:
PDF:: https://aclanthology.org/2025.findings-emnlp.104.pdf
Checklist:: 2025.findings-emnlp.104.checklist.pdf

PDF Cite Search Checklist Fix data