Arthur Boyer
2018
Détection automatique de phrases en domaine de spécialité en français (Sentence boundary detection for specialized domains in French )
Arthur Boyer
|
Aurélie Névéol
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN
La détection de frontières de phrase est généralement considéré comme un problème résolu. Cependant, les outils performant sur des textes en domaine général, ne le sont pas forcement sur des domaines spécialisés, ce qui peut engendrer des dégradations de performance des outils intervenant en aval dans une chaîne de traitement automatique s’appuyant sur des textes découpés en phrases. Dans cet article, nous évaluons 5 outils de segmentation en phrase sur 3 corpus issus de différent domaines. Nous ré-entrainerons l’un de ces outils sur un corpus de spécialité pour étudier l’adaptation en domaine. Notamment, nous utilisons un nouveau corpus biomédical annoté spécifiquement pour cette tâche. La detection de frontières de phrase à l’aide d’un modèle OpenNLP entraîné sur un corpus clinique offre une F-mesure de .73, contre .66 pour la version standard de l’outil.
2017
Findings of the WMT 2017 Biomedical Translation Shared Task
Antonio Jimeno Yepes
|
Aurélie Névéol
|
Mariana Neves
|
Karin Verspoor
|
Ondřej Bojar
|
Arthur Boyer
|
Cristian Grozea
|
Barry Haddow
|
Madeleine Kittner
|
Yvonne Lichtblau
|
Pavel Pecina
|
Roland Roller
|
Rudolf Rosa
|
Amy Siu
|
Philippe Thomas
|
Saskia Trescher
Proceedings of the Second Conference on Machine Translation