Extraction d’informations à partir de corpus dégradés

Fabrice Even; Chantal Enguehard

Extraction d’informations à partir de corpus dégradés

Abstract

Nous présentons une méthode automatique d’extraction d’information à partir d’un corpus mono-domaine de mauvaise qualité, sur lequel il est impossible d’appliquer les méthodes classiques de traitement de la langue naturelle. Cette approche se fonde sur la construction d’une ontologie semi-formelle (modélisant les informations contenues dans le corpus et les relations entre elles). Notre méthode se déroule en trois phases : 1) la normalisation du corpus, 2) la construction de l’ontologie, et 3) sa formalisation sous la forme d’une grammaire. L’extraction d’information à proprement parler exploite un étiquetage utilisant les règles définies par la grammaire. Nous illustrons notre démarche d’une application sur un corpus bancaire.

Anthology ID:: 2002.jeptalnrecital-long.8
Volume:: Actes de la 9ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Month:: June
Year:: 2002
Address:: Nancy, France
Editor:: Jean-Marie Pierrel
Venue:: JEP/TALN/RECITAL
SIG:
Publisher:: ATALA
Note:
Pages:: 105–115
Language:: French
URL:: https://aclanthology.org/2002.jeptalnrecital-long.8/
DOI:
Bibkey:
Cite (ACL):: Fabrice Even and Chantal Enguehard. 2002. Extraction d’informations à partir de corpus dégradés. In Actes de la 9ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs, pages 105–115, Nancy, France. ATALA.
Cite (Informal):: Extraction d’informations à partir de corpus dégradés (Even & Enguehard, JEP/TALN/RECITAL 2002)
Copy Citation:
PDF:: https://aclanthology.org/2002.jeptalnrecital-long.8.pdf

PDF Cite Search Fix data