CLISTER : Un corpus pour la similarité sémantique textuelle dans des cas cliniques en français (CLISTER : A Corpus for Semantic Textual Similarity in French Clinical Narratives)

Nicolas Hiebel, Karën Fort, Aurélie Névéol, Olivier Ferret


Abstract
Le TAL repose sur la disponibilité de corpus annotés pour l’entraînement et l’évaluation de modèles. Il existe très peu de ressources pour la similarité sémantique dans le domaine clinique en français. Dans cette étude, nous proposons une définition de la similarité guidée par l’analyse clinique et l’appliquons au développement d’un nouveau corpus partagé de 1 000 paires de phrases annotées manuellement en scores de similarité. Nous évaluons ensuite le corpus par des expériences de mesure automatique de similarité. Nous montrons ainsi qu’un modèle de plongements de phrases peut capturer la similarité avec des performances à l’état de l’art sur le corpus DEFT STS (Spearman=0,8343). Nous montrons également que le contenu du corpus CLISTER est complémentaire de celui de DEFT STS.
Anthology ID:
2022.jeptalnrecital-taln.28
Volume:
Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale
Month:
6
Year:
2022
Address:
Avignon, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
287–296
Language:
French
URL:
https://aclanthology.org/2022.jeptalnrecital-taln.28
DOI:
Bibkey:
Cite (ACL):
Nicolas Hiebel, Karën Fort, Aurélie Névéol, and Olivier Ferret. 2022. CLISTER : Un corpus pour la similarité sémantique textuelle dans des cas cliniques en français (CLISTER : A Corpus for Semantic Textual Similarity in French Clinical Narratives). In Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale, pages 287–296, Avignon, France. ATALA.
Cite (Informal):
CLISTER : Un corpus pour la similarité sémantique textuelle dans des cas cliniques en français (CLISTER : A Corpus for Semantic Textual Similarity in French Clinical Narratives) (Hiebel et al., JEP/TALN/RECITAL 2022)
Copy Citation:
PDF:
https://aclanthology.org/2022.jeptalnrecital-taln.28.pdf
Data
BIOSSESPAWS-X