PersianMCQ-Instruct: A Comprehensive Resource for Generating Multiple-Choice Questions in Persian

Kamyar Zeinalipour; Neda Jamshidi; Fahimeh Akbari; Marco Maggini; Monica Bianchini; Marco Gori

PersianMCQ-Instruct: A Comprehensive Resource for Generating Multiple-Choice Questions in Persian

Kamyar Zeinalipour, Neda Jamshidi, Fahimeh Akbari, Marco Maggini, Monica Bianchini, Marco Gori

Abstract

We present PersianMCQ-Instruct, a comprehensive resource that includes a dataset and advanced models for generating multiple-choice questions (MCQs) in standard Iranian Persian, a low-resource language spoken by over 80 million people. This resource features three state-of-the-art models for Persian MCQ generation: PMCQ-Gemma2-9b, PMCQ-Llama3.1-8b, and PMCQ-Mistral-7B. Inspired by the Agent Instruct framework and GPT-4o, we created the dataset by curating over 4,000 unique Persian Wikipedia pages, resulting in three MCQs per page and a total of over 12,000 questions. To ensure the quality of this dataset, we conducted human evaluations and model fine-tuning, both of which demonstrated significant performance improvements in Persian MCQ generation. The dataset and models are publicly available, offering valuable tools for researchers and educators, with particular benefits for advancing Persian-language educational technology.

Anthology ID:: 2025.loreslm-1.27
Volume:: Proceedings of the First Workshop on Language Models for Low-Resource Languages
Month:: January
Year:: 2025
Address:: Abu Dhabi, United Arab Emirates
Editors:: Hansi Hettiarachchi, Tharindu Ranasinghe, Paul Rayson, Ruslan Mitkov, Mohamed Gaber, Damith Premasiri, Fiona Anting Tan, Lasitha Uyangodage
Venues:: LoResLM | WS
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 344–372
Language:
URL:: https://aclanthology.org/2025.loreslm-1.27/
DOI:
Bibkey:
Cite (ACL):: Kamyar Zeinalipour, Neda Jamshidi, Fahimeh Akbari, Marco Maggini, Monica Bianchini, and Marco Gori. 2025. PersianMCQ-Instruct: A Comprehensive Resource for Generating Multiple-Choice Questions in Persian. In Proceedings of the First Workshop on Language Models for Low-Resource Languages, pages 344–372, Abu Dhabi, United Arab Emirates. Association for Computational Linguistics.
Cite (Informal):: PersianMCQ-Instruct: A Comprehensive Resource for Generating Multiple-Choice Questions in Persian (Zeinalipour et al., LoResLM 2025)
Copy Citation:
PDF:: https://aclanthology.org/2025.loreslm-1.27.pdf

PDF Cite Search Fix data