MediTOD: An English Dialogue Dataset for Medical History Taking with Comprehensive Annotations

Vishal Vivek Saley; Goonjan Saha; Rocktim Jyoti Das; Dinesh Raghu; Mausam .

doi:10.18653/v1/2024.emnlp-main.936

MediTOD: An English Dialogue Dataset for Medical History Taking with Comprehensive Annotations

Vishal Vivek Saley, Goonjan Saha, Rocktim Jyoti Das, Dinesh Raghu, Mausam .

Abstract

Medical task-oriented dialogue systems can assist doctors by collecting patient medical history, aiding in diagnosis, or guiding treatment selection, thereby reducing doctor burnout and expanding access to medical services. However, doctor-patient dialogue datasets are not readily available, primarily due to privacy regulations. Moreover, existing datasets lack comprehensive annotations involving medical slots and their different attributes, such as symptoms and their onset, progression, and severity. These comprehensive annotations are crucial for accurate diagnosis. Finally, most existing datasets are non-English, limiting their utility for the larger research community.In response, we introduce MediTOD, a new dataset of doctor-patient dialogues in English for the medical history-taking task. Collaborating with doctors, we devise a questionnaire-based labeling scheme tailored to the medical domain. Then, medical professionals create the dataset with high-quality comprehensive annotations, capturing medical slots and their attributes. We establish benchmarks in supervised and few-shot settings on MediTOD for natural language understanding, policy learning, and natural language generation subtasks, evaluating models from both TOD and biomedical domains. We make MediTOD publicly available for future research.

Anthology ID:: 2024.emnlp-main.936
Volume:: Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing
Month:: November
Year:: 2024
Address:: Miami, Florida, USA
Editors:: Yaser Al-Onaizan, Mohit Bansal, Yun-Nung Chen
Venue:: EMNLP
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 16843–16877
Language:
URL:: https://aclanthology.org/2024.emnlp-main.936/
DOI:: 10.18653/v1/2024.emnlp-main.936
Bibkey:
Cite (ACL):: Vishal Vivek Saley, Goonjan Saha, Rocktim Jyoti Das, Dinesh Raghu, and Mausam .. 2024. MediTOD: An English Dialogue Dataset for Medical History Taking with Comprehensive Annotations. In Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, pages 16843–16877, Miami, Florida, USA. Association for Computational Linguistics.
Cite (Informal):: MediTOD: An English Dialogue Dataset for Medical History Taking with Comprehensive Annotations (Saley et al., EMNLP 2024)
Copy Citation:
PDF:: https://aclanthology.org/2024.emnlp-main.936.pdf
Software:: 2024.emnlp-main.936.software.zip

PDF Cite Search Software Fix data