Masked Diffusion Language Models with Frequency-Informed Training

Despoina Kosmopoulou; Efthymios Georgiou; Vaggelis Dorovatas; Georgios Paraskevopoulos; Alexandros Potamianos

doi:10.18653/v1/2025.babylm-main.38

Masked Diffusion Language Models with Frequency-Informed Training

Despoina Kosmopoulou, Efthymios Georgiou, Vaggelis Dorovatas, Georgios Paraskevopoulos, Alexandros Potamianos

Abstract

We present a masked diffusion language modeling framework for data-efficient training for the BabyLM 2025 Challenge. Our approach applies diffusion training objectives to language modeling under strict data constraints, incorporating frequency-informed masking that prioritizes learning from rare tokens while maintaining theoretical validity. We explore multiple noise scheduling strategies, including two-mode approaches, and investigate different noise weighting schemes within the NELBO objective. We evaluate our method on the BabyLM benchmark suite, measuring linguistic competence, world knowledge, and human-likeness. Results show performance competitive to hybrid autoregressive-masked baselines, demonstrating that diffusion-based training offers a viable alternative for data-restricted language learning.

Anthology ID:: 2025.babylm-main.38
Volume:: Proceedings of the First BabyLM Workshop
Month:: November
Year:: 2025
Address:: Suzhou, China
Editors:: Lucas Charpentier, Leshem Choshen, Ryan Cotterell, Mustafa Omer Gul, Michael Y. Hu, Jing Liu, Jaap Jumelet, Tal Linzen, Aaron Mueller, Candace Ross, Raj Sanjay Shah, Alex Warstadt, Ethan Gotlieb Wilcox, Adina Williams
Venue:: BabyLM
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 531–539
Language:
URL:: https://aclanthology.org/2025.babylm-main.38/
DOI:: 10.18653/v1/2025.babylm-main.38
Bibkey:
Cite (ACL):: Despoina Kosmopoulou, Efthymios Georgiou, Vaggelis Dorovatas, Georgios Paraskevopoulos, and Alexandros Potamianos. 2025. Masked Diffusion Language Models with Frequency-Informed Training. In Proceedings of the First BabyLM Workshop, pages 531–539, Suzhou, China. Association for Computational Linguistics.
Cite (Informal):: Masked Diffusion Language Models with Frequency-Informed Training (Kosmopoulou et al., BabyLM 2025)
Copy Citation:
PDF:: https://aclanthology.org/2025.babylm-main.38.pdf

PDF Cite Search Fix data