Does Biomedical Training Lead to Better Medical Performance?

Amin Dada; Osman Alperen Koraş; Marie Bauer; Jean-Philippe Corbeil; Amanda Butler Contreras; Constantin Marc Seibold; Kaleb E. Smith; Julian Friedrich; Jens Kleesiek

Does Biomedical Training Lead to Better Medical Performance?

Amin Dada, Osman Alperen Koraş, Marie Bauer, Jean-Philippe Corbeil, Amanda Butler Contreras, Constantin Marc Seibold, Kaleb E Smith, Julian Friedrich, Jens Kleesiek

Abstract

Large Language Models (LLMs) hold significant potential for improving healthcare applications, with biomedically adapted models promising enhanced performance on medical tasks. However, the effectiveness of biomedical domain adaptation for clinical tasks remains uncertain. In this study, we conduct a direct comparison of 12 biomedically adapted models and their general-domain base counterparts across six clinical tasks. Our results reveal that 11 out of 12 biomedical models exhibit performance declines, challenging prior findings that reported positive effects of biomedical adaptation. Notably, previous positive results primarily relied on multiple-choice evaluations, which may not reflect performance in real-world clinical applications. To promote reproducibility and further research, we open-source our evaluation pipeline, providing a resource for the development of models with practical benefits in healthcare settings.

Anthology ID:: 2025.gem-1.5
Volume:: Proceedings of the Fourth Workshop on Generation, Evaluation and Metrics (GEM²)
Month:: July
Year:: 2025
Address:: Vienna, Austria and virtual meeting
Editors:: Ofir Arviv, Miruna Clinciu, Kaustubh Dhole, Rotem Dror, Sebastian Gehrmann, Eliya Habba, Itay Itzhak, Simon Mille, Yotam Perlitz, Enrico Santus, João Sedoc, Michal Shmueli Scheuer, Gabriel Stanovsky, Oyvind Tafjord
Venues:: GEM | WS
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 46–59
Language:
URL:: https://aclanthology.org/2025.gem-1.5/
DOI:
Bibkey:
Cite (ACL):: Amin Dada, Osman Alperen Koraş, Marie Bauer, Jean-Philippe Corbeil, Amanda Butler Contreras, Constantin Marc Seibold, Kaleb E Smith, Julian Friedrich, and Jens Kleesiek. 2025. Does Biomedical Training Lead to Better Medical Performance?. In Proceedings of the Fourth Workshop on Generation, Evaluation and Metrics (GEM²), pages 46–59, Vienna, Austria and virtual meeting. Association for Computational Linguistics.
Cite (Informal):: Does Biomedical Training Lead to Better Medical Performance? (Dada et al., GEM 2025)
Copy Citation:
PDF:: https://aclanthology.org/2025.gem-1.5.pdf

PDF Cite Search Fix data