Apport des termes complexes pour enrichir l’analyse distributionnelle en domaine spécialisé (Multi-words terms impact in improving domain-specific distributed representations )

Merieme Bouhandi


Abstract
L’essor et les performances des modèles de sémantique distributionnelle sont principalement dus à l’accroissement de la quantité de données textuelles disponibles ainsi qu’à la généralisation des méthodes neuronales pour la construction de ces modèles. La qualité des représentations distribuées est souvent corrélée à la quantité de données disponibles et les corpus spécialisés, généralement d’une taille modeste, se trouvent de ce fait pénalisés. Alors que la plupart des modèles de sémantique distributionnelle traitent de mots isolés, nous partons de l’hypothèse que l’exploitation des termes, notamment complexes, est essentielle notamment en langue de spécialité car ils sont porteurs d’une dimension sémantique supplémentaire. Ainsi, nous évaluons une méthode de généralisation des contextes distributionnels par un mécanisme d’inclusion lexicale reposant sur les termes complexes. Nos différentes représentations distributionnelles sont ensuite confrontées à une tâche d’extraction de concepts médicaux à partir des rapports médicaux proposée par l’édition 2010 du challenge i2b2.
Anthology ID:
2019.jeptalnrecital-recital.2
Volume:
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume III : RECITAL
Month:
7
Year:
2019
Address:
Toulouse, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
473–486
Language:
French
URL:
https://aclanthology.org/2019.jeptalnrecital-recital.2
DOI:
Bibkey:
Copy Citation:
PDF:
https://aclanthology.org/2019.jeptalnrecital-recital.2.pdf