Un nouveau schéma de pondération pour la catégorisation de documents manuscrits

Sebastián Peña Saldarriaga, Emmanuel Morin, Christian Viard-Gaudin


Abstract
Les schémas de pondération utilisés habituellement en catégorisation de textes, et plus généralement en recherche d’information (RI), ne sont pas adaptés à l’utilisation de données liées à des textes issus d’un processus de reconnaissance de l’écriture. En particulier, les candidats-mot à la reconnaissance ne pourraient être exploités sans introduire de fausses occurrences de termes dans le document. Dans cet article nous présentons un nouveau schéma de pondération permettant d’exploiter les listes de candidats-mot. Il permet d’estimer le pouvoir discriminant d’un terme en fonction de la probabilité a posteriori d’un candidat-mot dans une liste de candidats. Les résultats montrent que le taux de classification de documents fortement dégradés peut être amélioré en utilisant le schéma proposé.
Anthology ID:
2009.jeptalnrecital-court.43
Volume:
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Month:
June
Year:
2009
Address:
Senlis, France
Editors:
Adeline Nazarenko, Thierry Poibeau
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
394–403
Language:
French
URL:
https://aclanthology.org/2009.jeptalnrecital-court.43
DOI:
Bibkey:
Cite (ACL):
Sebastián Peña Saldarriaga, Emmanuel Morin, and Christian Viard-Gaudin. 2009. Un nouveau schéma de pondération pour la catégorisation de documents manuscrits. In Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts, pages 394–403, Senlis, France. ATALA.
Cite (Informal):
Un nouveau schéma de pondération pour la catégorisation de documents manuscrits (Peña Saldarriaga et al., JEP/TALN/RECITAL 2009)
Copy Citation:
PDF:
https://aclanthology.org/2009.jeptalnrecital-court.43.pdf