Détection automatique de phrases en domaine de spécialité en français (Sentence boundary detection for specialized domains in French )

Arthur Boyer, Aurélie Névéol


Abstract
La détection de frontières de phrase est généralement considéré comme un problème résolu. Cependant, les outils performant sur des textes en domaine général, ne le sont pas forcement sur des domaines spécialisés, ce qui peut engendrer des dégradations de performance des outils intervenant en aval dans une chaîne de traitement automatique s’appuyant sur des textes découpés en phrases. Dans cet article, nous évaluons 5 outils de segmentation en phrase sur 3 corpus issus de différent domaines. Nous ré-entrainerons l’un de ces outils sur un corpus de spécialité pour étudier l’adaptation en domaine. Notamment, nous utilisons un nouveau corpus biomédical annoté spécifiquement pour cette tâche. La detection de frontières de phrase à l’aide d’un modèle OpenNLP entraîné sur un corpus clinique offre une F-mesure de .73, contre .66 pour la version standard de l’outil.
Anthology ID:
2018.jeptalnrecital-court.2
Volume:
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN
Month:
5
Year:
2018
Address:
Rennes, France
Editors:
Pascale Sébillot, Vincent Claveau
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
205–214
Language:
French
URL:
https://aclanthology.org/2018.jeptalnrecital-court.2
DOI:
Bibkey:
Cite (ACL):
Arthur Boyer and Aurélie Névéol. 2018. Détection automatique de phrases en domaine de spécialité en français (Sentence boundary detection for specialized domains in French ). In Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN, pages 205–214, Rennes, France. ATALA.
Cite (Informal):
Détection automatique de phrases en domaine de spécialité en français (Sentence boundary detection for specialized domains in French ) (Boyer & Névéol, JEP/TALN/RECITAL 2018)
Copy Citation:
PDF:
https://aclanthology.org/2018.jeptalnrecital-court.2.pdf