Extraction d’informations à partir de corpus dégradés

Fabrice Even, Chantal Enguehard


Abstract
Nous présentons une méthode automatique d’extraction d’information à partir d’un corpus mono-domaine de mauvaise qualité, sur lequel il est impossible d’appliquer les méthodes classiques de traitement de la langue naturelle. Cette approche se fonde sur la construction d’une ontologie semi-formelle (modélisant les informations contenues dans le corpus et les relations entre elles). Notre méthode se déroule en trois phases : 1) la normalisation du corpus, 2) la construction de l’ontologie, et 3) sa formalisation sous la forme d’une grammaire. L’extraction d’information à proprement parler exploite un étiquetage utilisant les règles définies par la grammaire. Nous illustrons notre démarche d’une application sur un corpus bancaire.
Anthology ID:
2002.jeptalnrecital-long.8
Volume:
Actes de la 9ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Month:
June
Year:
2002
Address:
Nancy, France
Editor:
Jean-Marie Pierrel
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
105–115
Language:
French
URL:
https://aclanthology.org/2002.jeptalnrecital-long.8
DOI:
Bibkey:
Cite (ACL):
Fabrice Even and Chantal Enguehard. 2002. Extraction d’informations à partir de corpus dégradés. In Actes de la 9ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs, pages 105–115, Nancy, France. ATALA.
Cite (Informal):
Extraction d’informations à partir de corpus dégradés (Even & Enguehard, JEP/TALN/RECITAL 2002)
Copy Citation:
PDF:
https://aclanthology.org/2002.jeptalnrecital-long.8.pdf