@inproceedings{g-moreno-etal-2025-patientdx,
title = "{P}atient{D}x : Fusion des grands mod{\`e}les de langue pour la protection de la confidentialit{\'e} des donn{\'e}es dans le domaine de la sant{\'e}",
author = "G. Moreno, Jose and
Lov{\'o}n-Melgarejo, Jes{\'u}s and
Robin-Charlet, M{'}Rick and
Christine-Damase-Michel and
Tamine, Lynda",
editor = "Bechet, Fr{\'e}d{\'e}ric and
Chifu, Adrian-Gabriel and
Pinel-sauvagnat, Karen and
Favre, Benoit and
Maes, Eliot and
Nurbakova, Diana",
booktitle = "Actes des 32{\`e}me Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : traductions d'articles publi{\'e}s",
month = "6",
year = "2025",
address = "Marseille, France",
publisher = "ATALA {\textbackslash}{\textbackslash}{\&} ARIA",
url = "https://aclanthology.org/2025.jeptalnrecital-trad.22/",
pages = "53--54",
language = "fra",
abstract = "L{'}affinage des grands mod{\`e}les de langue (abr{\'e}g{\'e} LLM de l{'}anglais large language model) est devenu la pratique courante pour am{\'e}liorer la performance des mod{\`e}les sur une t{\^a}che donn{\'e}e. Cependant, cette am{\'e}lioration de performance s{'}accompagne d{'}un co{\^u}t : l{'}entra{\^i}nement sur de vastes quantit{\'e}s de donn{\'e}es annot{\'e}es potentiellement sensibles, ce qui soul{\`e}ve d{'}importantes pr{\'e}occupations en mati{\`e}re de confidentialit{\'e} des donn{\'e}es. Le domaine de la sant{\'e} constitue l{'}un des domaines les plus sensibles expos{\'e}s aux probl{\`e}mes de confidentialit{\'e} des donn{\'e}es. Dans cet article, nous pr{\'e}sentons ``PatientDx'', une architecture de fusion de mod{\`e}les permettant de concevoir des LLM efficaces pour les t{\^a}ches pr{\'e}dictives en sant{\'e} sans n{\'e}cessiter d{'}affinage ni d{'}adaptation sur les donn{\'e}es des patients. Notre proposition repose sur des techniques r{\'e}cemment propos{\'e}es connues sous le nom de fusion de LLM et vise {\`a} optimiser une strat{\'e}gie de fusion modulaire. ``PatientDx'' utilise un mod{\`e}le pivot adapt{\'e} au raisonnement num{\'e}rique et ajuste les hyperparam{\`e}tres sur des exemples en fonction d{'}une m{\'e}trique de performance, mais sans entra{\^i}ner le LLM sur ces donn{\'e}es. Les exp{\'e}riences utilisant les t{\^a}ches de pr{\'e}diction de mortalit{\'e} de l{'}ensemble de donn{\'e}es MIMIC-IV montrent des am{\'e}liorations jusqu'{\`a} 7{\%} en termes d{'}AUROC par rapport aux mod{\`e}les initiaux. De plus, nous confirmons que, compar{\'e}e aux mod{\`e}les affin{\'e}s, notre proposition est moins sujette aux probl{\`e}mes de fuite de donn{\'e}es sans nuire {\`a} la performance. Enfin, nous d{\'e}montrons qualitativement les capacit{\'e}s de notre proposition {\`a} travers une {\'e}tude de cas. Notre meilleur mod{\`e}le est publiquement disponible : https://huggingface.co/Jgmorenof/mistral{\_}merged{\_}0{\_}4. Ceci est le r{\'e}sum{\'e} de l{'}article publi{\'e} ``PatientDx : Merging Large Language Models for Protecting Data-Privacy in Healthcare'' dans l{'}atelier CL4Health, NAACL 2025 (Moreno et al., 2025)."
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="g-moreno-etal-2025-patientdx">
<titleInfo>
<title>PatientDx : Fusion des grands modèles de langue pour la protection de la confidentialité des données dans le domaine de la santé</title>
</titleInfo>
<name type="personal">
<namePart type="given">Jose</namePart>
<namePart type="family">G. Moreno</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Jesús</namePart>
<namePart type="family">Lovón-Melgarejo</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">M’Rick</namePart>
<namePart type="family">Robin-Charlet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name>
<namePart>Christine-Damase-Michel</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Lynda</namePart>
<namePart type="family">Tamine</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2025-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : traductions d’articles publiés</title>
</titleInfo>
<name type="personal">
<namePart type="given">Frédéric</namePart>
<namePart type="family">Bechet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Adrian-Gabriel</namePart>
<namePart type="family">Chifu</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Karen</namePart>
<namePart type="family">Pinel-sauvagnat</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Benoit</namePart>
<namePart type="family">Favre</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Eliot</namePart>
<namePart type="family">Maes</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Diana</namePart>
<namePart type="family">Nurbakova</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA \textbackslash\textbackslash& ARIA</publisher>
<place>
<placeTerm type="text">Marseille, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>L’affinage des grands modèles de langue (abrégé LLM de l’anglais large language model) est devenu la pratique courante pour améliorer la performance des modèles sur une tâche donnée. Cependant, cette amélioration de performance s’accompagne d’un coût : l’entraînement sur de vastes quantités de données annotées potentiellement sensibles, ce qui soulève d’importantes préoccupations en matière de confidentialité des données. Le domaine de la santé constitue l’un des domaines les plus sensibles exposés aux problèmes de confidentialité des données. Dans cet article, nous présentons “PatientDx”, une architecture de fusion de modèles permettant de concevoir des LLM efficaces pour les tâches prédictives en santé sans nécessiter d’affinage ni d’adaptation sur les données des patients. Notre proposition repose sur des techniques récemment proposées connues sous le nom de fusion de LLM et vise à optimiser une stratégie de fusion modulaire. “PatientDx” utilise un modèle pivot adapté au raisonnement numérique et ajuste les hyperparamètres sur des exemples en fonction d’une métrique de performance, mais sans entraîner le LLM sur ces données. Les expériences utilisant les tâches de prédiction de mortalité de l’ensemble de données MIMIC-IV montrent des améliorations jusqu’à 7% en termes d’AUROC par rapport aux modèles initiaux. De plus, nous confirmons que, comparée aux modèles affinés, notre proposition est moins sujette aux problèmes de fuite de données sans nuire à la performance. Enfin, nous démontrons qualitativement les capacités de notre proposition à travers une étude de cas. Notre meilleur modèle est publiquement disponible : https://huggingface.co/Jgmorenof/mistral_merged_0_4. Ceci est le résumé de l’article publié “PatientDx : Merging Large Language Models for Protecting Data-Privacy in Healthcare” dans l’atelier CL4Health, NAACL 2025 (Moreno et al., 2025).</abstract>
<identifier type="citekey">g-moreno-etal-2025-patientdx</identifier>
<location>
<url>https://aclanthology.org/2025.jeptalnrecital-trad.22/</url>
</location>
<part>
<date>2025-6</date>
<extent unit="page">
<start>53</start>
<end>54</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T PatientDx : Fusion des grands modèles de langue pour la protection de la confidentialité des données dans le domaine de la santé
%A G. Moreno, Jose
%A Lovón-Melgarejo, Jesús
%A Robin-Charlet, M’Rick
%A Tamine, Lynda
%Y Bechet, Frédéric
%Y Chifu, Adrian-Gabriel
%Y Pinel-sauvagnat, Karen
%Y Favre, Benoit
%Y Maes, Eliot
%Y Nurbakova, Diana
%A Christine-Damase-Michel
%S Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : traductions d’articles publiés
%D 2025
%8 June
%I ATALA \textbackslash\textbackslash& ARIA
%C Marseille, France
%G fra
%F g-moreno-etal-2025-patientdx
%X L’affinage des grands modèles de langue (abrégé LLM de l’anglais large language model) est devenu la pratique courante pour améliorer la performance des modèles sur une tâche donnée. Cependant, cette amélioration de performance s’accompagne d’un coût : l’entraînement sur de vastes quantités de données annotées potentiellement sensibles, ce qui soulève d’importantes préoccupations en matière de confidentialité des données. Le domaine de la santé constitue l’un des domaines les plus sensibles exposés aux problèmes de confidentialité des données. Dans cet article, nous présentons “PatientDx”, une architecture de fusion de modèles permettant de concevoir des LLM efficaces pour les tâches prédictives en santé sans nécessiter d’affinage ni d’adaptation sur les données des patients. Notre proposition repose sur des techniques récemment proposées connues sous le nom de fusion de LLM et vise à optimiser une stratégie de fusion modulaire. “PatientDx” utilise un modèle pivot adapté au raisonnement numérique et ajuste les hyperparamètres sur des exemples en fonction d’une métrique de performance, mais sans entraîner le LLM sur ces données. Les expériences utilisant les tâches de prédiction de mortalité de l’ensemble de données MIMIC-IV montrent des améliorations jusqu’à 7% en termes d’AUROC par rapport aux modèles initiaux. De plus, nous confirmons que, comparée aux modèles affinés, notre proposition est moins sujette aux problèmes de fuite de données sans nuire à la performance. Enfin, nous démontrons qualitativement les capacités de notre proposition à travers une étude de cas. Notre meilleur modèle est publiquement disponible : https://huggingface.co/Jgmorenof/mistral_merged_0_4. Ceci est le résumé de l’article publié “PatientDx : Merging Large Language Models for Protecting Data-Privacy in Healthcare” dans l’atelier CL4Health, NAACL 2025 (Moreno et al., 2025).
%U https://aclanthology.org/2025.jeptalnrecital-trad.22/
%P 53-54
Markdown (Informal)
[PatientDx : Fusion des grands modèles de langue pour la protection de la confidentialité des données dans le domaine de la santé](https://aclanthology.org/2025.jeptalnrecital-trad.22/) (G. Moreno et al., JEP/TALN/RECITAL 2025)
ACL