@inproceedings{estignard-etal-2025-evaluation,
title = "{\'E}valuation de la confidentialit{\'e} des textes cliniques synth{\'e}tiques g{\'e}n{\'e}r{\'e}s par des mod{\`e}les de langue",
author = "Estignard, Foucauld and
Ghannay, Sahar and
Girard-Satabin, Julien and
Hiebel, Nicolas and
N{\'e}v{\'e}ol, Aur{\'e}lie",
editor = "Bechet, Fr{\'e}d{\'e}ric and
Chifu, Adrian-Gabriel and
Pinel-sauvagnat, Karen and
Favre, Benoit and
Maes, Eliot and
Nurbakova, Diana",
booktitle = "Actes des 32{\`e}me Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : traductions d'articles publi{\'e}s",
month = "6",
year = "2025",
address = "Marseille, France",
publisher = "ATALA {\textbackslash}{\textbackslash}{\&} ARIA",
url = "https://aclanthology.org/2025.jeptalnrecital-trad.10/",
pages = "13--13",
language = "fra",
abstract = "Les grands mod{\`e}les de langue (LLM) peuvent {\^e}tre utilis{\'e}s pour produire des documents synth{\'e}tiques similaires {\`a} des documents r{\'e}els dont la disponibilit{\'e} est limit{\'e}e pour des raisons de confidentialit{\'e} ou de droits d{'}auteur. Dans cet article, nous {\'e}tudions les risques en lien avec la confidentialit{\'e} dans les documents g{\'e}n{\'e}r{\'e}s automatiquement. Nous utilisons des textes synth{\'e}tiques g{\'e}n{\'e}r{\'e}s {\`a} partir d{'}un mod{\`e}le pr{\'e}-entra{\^i}n{\'e} et affin{\'e} sur des cas cliniques en fran{\c{c}}ais afin d'{\'e}valuer ces risques selon trois crit{\`e}res : (1) la similarit{\'e} entre un corpus d{'}entra{\^i}nement r{\'e}el et le corpus synth{\'e}tique (2) les corr{\'e}lations entre les caract{\'e}ristiques cliniques dans le corpus d{'}entra{\^i}nement et le corpus synth{\'e}tique et (3) une attaque par inf{\'e}rence d{'}appartenance (MIA, en anglais) utilisant un mod{\`e}le affin{\'e} sur le corpus synth{\'e}tique. Nous identifions des associations de caract{\'e}ristiques cliniques qui sugg{\`e}rent que le filtrage du corpus d{'}entra{\^i}nement pourrait contribuer {\`a} la pr{\'e}servation de la confidentialit{\'e}. Les attaques par inf{\'e}rence d{'}appartenance n{'}ont pas {\'e}t{\'e} concluantes."
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="estignard-etal-2025-evaluation">
<titleInfo>
<title>Évaluation de la confidentialité des textes cliniques synthétiques générés par des modèles de langue</title>
</titleInfo>
<name type="personal">
<namePart type="given">Foucauld</namePart>
<namePart type="family">Estignard</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Sahar</namePart>
<namePart type="family">Ghannay</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Julien</namePart>
<namePart type="family">Girard-Satabin</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Nicolas</namePart>
<namePart type="family">Hiebel</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Aurélie</namePart>
<namePart type="family">Névéol</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2025-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : traductions d’articles publiés</title>
</titleInfo>
<name type="personal">
<namePart type="given">Frédéric</namePart>
<namePart type="family">Bechet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Adrian-Gabriel</namePart>
<namePart type="family">Chifu</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Karen</namePart>
<namePart type="family">Pinel-sauvagnat</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Benoit</namePart>
<namePart type="family">Favre</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Eliot</namePart>
<namePart type="family">Maes</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Diana</namePart>
<namePart type="family">Nurbakova</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA \textbackslash\textbackslash& ARIA</publisher>
<place>
<placeTerm type="text">Marseille, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Les grands modèles de langue (LLM) peuvent être utilisés pour produire des documents synthétiques similaires à des documents réels dont la disponibilité est limitée pour des raisons de confidentialité ou de droits d’auteur. Dans cet article, nous étudions les risques en lien avec la confidentialité dans les documents générés automatiquement. Nous utilisons des textes synthétiques générés à partir d’un modèle pré-entraîné et affiné sur des cas cliniques en français afin d’évaluer ces risques selon trois critères : (1) la similarité entre un corpus d’entraînement réel et le corpus synthétique (2) les corrélations entre les caractéristiques cliniques dans le corpus d’entraînement et le corpus synthétique et (3) une attaque par inférence d’appartenance (MIA, en anglais) utilisant un modèle affiné sur le corpus synthétique. Nous identifions des associations de caractéristiques cliniques qui suggèrent que le filtrage du corpus d’entraînement pourrait contribuer à la préservation de la confidentialité. Les attaques par inférence d’appartenance n’ont pas été concluantes.</abstract>
<identifier type="citekey">estignard-etal-2025-evaluation</identifier>
<location>
<url>https://aclanthology.org/2025.jeptalnrecital-trad.10/</url>
</location>
<part>
<date>2025-6</date>
<extent unit="page">
<start>13</start>
<end>13</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Évaluation de la confidentialité des textes cliniques synthétiques générés par des modèles de langue
%A Estignard, Foucauld
%A Ghannay, Sahar
%A Girard-Satabin, Julien
%A Hiebel, Nicolas
%A Névéol, Aurélie
%Y Bechet, Frédéric
%Y Chifu, Adrian-Gabriel
%Y Pinel-sauvagnat, Karen
%Y Favre, Benoit
%Y Maes, Eliot
%Y Nurbakova, Diana
%S Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : traductions d’articles publiés
%D 2025
%8 June
%I ATALA \textbackslash\textbackslash& ARIA
%C Marseille, France
%G fra
%F estignard-etal-2025-evaluation
%X Les grands modèles de langue (LLM) peuvent être utilisés pour produire des documents synthétiques similaires à des documents réels dont la disponibilité est limitée pour des raisons de confidentialité ou de droits d’auteur. Dans cet article, nous étudions les risques en lien avec la confidentialité dans les documents générés automatiquement. Nous utilisons des textes synthétiques générés à partir d’un modèle pré-entraîné et affiné sur des cas cliniques en français afin d’évaluer ces risques selon trois critères : (1) la similarité entre un corpus d’entraînement réel et le corpus synthétique (2) les corrélations entre les caractéristiques cliniques dans le corpus d’entraînement et le corpus synthétique et (3) une attaque par inférence d’appartenance (MIA, en anglais) utilisant un modèle affiné sur le corpus synthétique. Nous identifions des associations de caractéristiques cliniques qui suggèrent que le filtrage du corpus d’entraînement pourrait contribuer à la préservation de la confidentialité. Les attaques par inférence d’appartenance n’ont pas été concluantes.
%U https://aclanthology.org/2025.jeptalnrecital-trad.10/
%P 13-13
Markdown (Informal)
[Évaluation de la confidentialité des textes cliniques synthétiques générés par des modèles de langue](https://aclanthology.org/2025.jeptalnrecital-trad.10/) (Estignard et al., JEP/TALN/RECITAL 2025)
ACL