PatientDx : Fusion des grands modèles de langue pour la protection de la confidentialité des données dans le domaine de la santé

Jose G. Moreno, Jesús Lovón-Melgarejo, M’Rick Robin-Charlet, Christine-Damase-Michel, Lynda Tamine


Abstract
L’affinage des grands modèles de langue (abrégé LLM de l’anglais large language model) est devenu la pratique courante pour améliorer la performance des modèles sur une tâche donnée. Cependant, cette amélioration de performance s’accompagne d’un coût : l’entraînement sur de vastes quantités de données annotées potentiellement sensibles, ce qui soulève d’importantes préoccupations en matière de confidentialité des données. Le domaine de la santé constitue l’un des domaines les plus sensibles exposés aux problèmes de confidentialité des données. Dans cet article, nous présentons “PatientDx”, une architecture de fusion de modèles permettant de concevoir des LLM efficaces pour les tâches prédictives en santé sans nécessiter d’affinage ni d’adaptation sur les données des patients. Notre proposition repose sur des techniques récemment proposées connues sous le nom de fusion de LLM et vise à optimiser une stratégie de fusion modulaire. “PatientDx” utilise un modèle pivot adapté au raisonnement numérique et ajuste les hyperparamètres sur des exemples en fonction d’une métrique de performance, mais sans entraîner le LLM sur ces données. Les expériences utilisant les tâches de prédiction de mortalité de l’ensemble de données MIMIC-IV montrent des améliorations jusqu’à 7% en termes d’AUROC par rapport aux modèles initiaux. De plus, nous confirmons que, comparée aux modèles affinés, notre proposition est moins sujette aux problèmes de fuite de données sans nuire à la performance. Enfin, nous démontrons qualitativement les capacités de notre proposition à travers une étude de cas. Notre meilleur modèle est publiquement disponible : https://huggingface.co/Jgmorenof/mistral_merged_0_4. Ceci est le résumé de l’article publié “PatientDx : Merging Large Language Models for Protecting Data-Privacy in Healthcare” dans l’atelier CL4Health, NAACL 2025 (Moreno et al., 2025).
Anthology ID:
2025.jeptalnrecital-trad.22
Volume:
Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : traductions d'articles publiés
Month:
6
Year:
2025
Address:
Marseille, France
Editors:
Frédéric Bechet, Adrian-Gabriel Chifu, Karen Pinel-sauvagnat, Benoit Favre, Eliot Maes, Diana Nurbakova
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA \\& ARIA
Note:
Pages:
53–54
Language:
French
URL:
https://aclanthology.org/2025.jeptalnrecital-trad.22/
DOI:
Bibkey:
Cite (ACL):
Jose G. Moreno, Jesús Lovón-Melgarejo, M’Rick Robin-Charlet, Christine-Damase-Michel, and Lynda Tamine. 2025. PatientDx : Fusion des grands modèles de langue pour la protection de la confidentialité des données dans le domaine de la santé. In Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : traductions d'articles publiés, pages 53–54, Marseille, France. ATALA \\& ARIA.
Cite (Informal):
PatientDx : Fusion des grands modèles de langue pour la protection de la confidentialité des données dans le domaine de la santé (G. Moreno et al., JEP/TALN/RECITAL 2025)
Copy Citation:
PDF:
https://aclanthology.org/2025.jeptalnrecital-trad.22.pdf