Segmentation Automatique de Lettres Historiques

Michel Généreux, Rita Marquilhas, Iris Hendrickx


Abstract
Cet article présente une approche basée sur la comparaison fréquentielle de modèles lexicaux pour la segmentation automatique de textes historiques Portugais. Cette approche traite d’abord le problème de la segmentation comme un problème de classification, en attribuant à chaque élément lexical présent dans la phase d’apprentissage une valeur de saillance pour chaque type de segment. Ces modèles lexicaux permettent à la fois de produire une segmentation et de faire une analyse qualitative de textes historiques. Notre évaluation montre que l’approche adoptée permet de tirer de l’information sémantique que des approches se concentrant sur la détection des frontières séparant les segments ne peuvent acquérir.
Anthology ID:
2010.jeptalnrecital-court.14
Volume:
Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Month:
July
Year:
2010
Address:
Montréal, Canada
Editors:
Philippe Langlais, Michel Gagnon
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
80–85
Language:
French
URL:
https://aclanthology.org/2010.jeptalnrecital-court.14
DOI:
Bibkey:
Cite (ACL):
Michel Généreux, Rita Marquilhas, and Iris Hendrickx. 2010. Segmentation Automatique de Lettres Historiques. In Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts, pages 80–85, Montréal, Canada. ATALA.
Cite (Informal):
Segmentation Automatique de Lettres Historiques (Généreux et al., JEP/TALN/RECITAL 2010)
Copy Citation:
PDF:
https://aclanthology.org/2010.jeptalnrecital-court.14.pdf