Maryvonne Holzem


2019

pdf bib
Une approche hybride pour la segmentation automatique de documents juridiques (A hybrid approach for automatic text segmentation)
Filipo Studzinski Perotto | Fadila Taleb | Eric Trupin | Youssouf Saidali | Maryvonne Holzem | Jacques Labiche | Laurent Vercouter
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume II : Articles courts

Cet article 1 propose une approche hybride pour la segmentation de documents basée sur l’agrégation de différentes solutions. Divers algorithmes de segmentation peuvent être utilisés dans le système, ce qui permet la combinaison de stratégies multiples (spécifiques au domaine, supervisées et nonsupervisées). Un ensemble de documents étiquetés, segmentés au préalable et représentatif du domaine ciblé, doit être fourni pour être utilisé comme ensemble d’entraînement pour l’apprentissage des méthodes supervisées, et aussi comme ensemble de test pour l’évaluation de la performance de chaque méthode, ce qui déterminera leur poids lors de la phase d’agrégation. L’approche proposée présente de bonnes performances dans un scénario expérimental issu d’un corpus extrait du domaine juridique.