@inproceedings{hiebel-etal-2023-les,
title = "Les textes cliniques fran{\c{c}}ais g{\'e}n{\'e}r{\'e}s sont-ils dangereusement similaires {\`a} leur source ? Analyse par plongements de phrases",
author = {Hiebel, Nicolas and
Olivier, Ferret and
Fort, Kar{\"e}n and
N{\'e}v{\'e}ol, Aur{\'e}lie},
editor = "Servan, Christophe and
Vilnat, Anne",
booktitle = "Actes de CORIA-TALN 2023. Actes de la 30e Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : travaux de recherche originaux -- articles courts",
month = "6",
year = "2023",
address = "Paris, France",
publisher = "ATALA",
url = "https://aclanthology.org/2023.jeptalnrecital-short.5",
pages = "46--54",
abstract = "Les ressources textuelles disponibles dans le domaine biom{\'e}dical sont rares pour des raisons de confidentialit{\'e}. Des donn{\'e}es existent mais ne sont pas partageables, c{'}est pourquoi il est int{\'e}ressant de s{'}inspirer de ces donn{\'e}es pour en g{\'e}n{\'e}rer de nouvelles sans contrainte de partage. Une difficult{\'e} majeure de la g{\'e}n{\'e}ration de donn{\'e}es m{\'e}dicales est que les donn{\'e}es g{\'e}n{\'e}r{\'e}es doivent ressembler aux donn{\'e}es originales sans compromettre leur confidentialit{\'e}. L{'}{\'e}valuation de cette t{\^a}che est donc difficile. Dans cette {\'e}tude, nous {\'e}tendons l{'}{\'e}valuation de corpus cliniques g{\'e}n{\'e}r{\'e}s en fran{\c{c}}ais en y ajoutant une dimension s{\'e}mantique {\`a} l{'}aide de plongements de phrases. Nous recherchons des phrases proches {\`a} l{'}aide de similarit{\'e} cosinus entre plongements, et analysons les scores de similarit{\'e}. Nous observons que les phrases synth{\'e}tiques sont th{\'e}matiquement proches du corpus original, mais suffisamment {\'e}loign{\'e}es pour ne pas {\^e}tre de simples reformulations qui compromettraient la confidentialit{\'e}.",
language = "French",
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="hiebel-etal-2023-les">
<titleInfo>
<title>Les textes cliniques français générés sont-ils dangereusement similaires à leur source ? Analyse par plongements de phrases</title>
</titleInfo>
<name type="personal">
<namePart type="given">Nicolas</namePart>
<namePart type="family">Hiebel</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Ferret</namePart>
<namePart type="family">Olivier</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Karën</namePart>
<namePart type="family">Fort</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Aurélie</namePart>
<namePart type="family">Névéol</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2023-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">French</languageTerm>
<languageTerm type="code" authority="iso639-2b">fre</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : travaux de recherche originaux – articles courts</title>
</titleInfo>
<name type="personal">
<namePart type="given">Christophe</namePart>
<namePart type="family">Servan</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Anne</namePart>
<namePart type="family">Vilnat</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA</publisher>
<place>
<placeTerm type="text">Paris, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Les ressources textuelles disponibles dans le domaine biomédical sont rares pour des raisons de confidentialité. Des données existent mais ne sont pas partageables, c’est pourquoi il est intéressant de s’inspirer de ces données pour en générer de nouvelles sans contrainte de partage. Une difficulté majeure de la génération de données médicales est que les données générées doivent ressembler aux données originales sans compromettre leur confidentialité. L’évaluation de cette tâche est donc difficile. Dans cette étude, nous étendons l’évaluation de corpus cliniques générés en français en y ajoutant une dimension sémantique à l’aide de plongements de phrases. Nous recherchons des phrases proches à l’aide de similarité cosinus entre plongements, et analysons les scores de similarité. Nous observons que les phrases synthétiques sont thématiquement proches du corpus original, mais suffisamment éloignées pour ne pas être de simples reformulations qui compromettraient la confidentialité.</abstract>
<identifier type="citekey">hiebel-etal-2023-les</identifier>
<location>
<url>https://aclanthology.org/2023.jeptalnrecital-short.5</url>
</location>
<part>
<date>2023-6</date>
<extent unit="page">
<start>46</start>
<end>54</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Les textes cliniques français générés sont-ils dangereusement similaires à leur source ? Analyse par plongements de phrases
%A Hiebel, Nicolas
%A Olivier, Ferret
%A Fort, Karën
%A Névéol, Aurélie
%Y Servan, Christophe
%Y Vilnat, Anne
%S Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : travaux de recherche originaux – articles courts
%D 2023
%8 June
%I ATALA
%C Paris, France
%G French
%F hiebel-etal-2023-les
%X Les ressources textuelles disponibles dans le domaine biomédical sont rares pour des raisons de confidentialité. Des données existent mais ne sont pas partageables, c’est pourquoi il est intéressant de s’inspirer de ces données pour en générer de nouvelles sans contrainte de partage. Une difficulté majeure de la génération de données médicales est que les données générées doivent ressembler aux données originales sans compromettre leur confidentialité. L’évaluation de cette tâche est donc difficile. Dans cette étude, nous étendons l’évaluation de corpus cliniques générés en français en y ajoutant une dimension sémantique à l’aide de plongements de phrases. Nous recherchons des phrases proches à l’aide de similarité cosinus entre plongements, et analysons les scores de similarité. Nous observons que les phrases synthétiques sont thématiquement proches du corpus original, mais suffisamment éloignées pour ne pas être de simples reformulations qui compromettraient la confidentialité.
%U https://aclanthology.org/2023.jeptalnrecital-short.5
%P 46-54
Markdown (Informal)
[Les textes cliniques français générés sont-ils dangereusement similaires à leur source ? Analyse par plongements de phrases](https://aclanthology.org/2023.jeptalnrecital-short.5) (Hiebel et al., JEP/TALN/RECITAL 2023)
ACL