Acquisition automatique de terminologie à partir de corpus de texte (Automatic terminology acquisition from text corpora)

Edmond Lassalle


Abstract
Les applications de recherche d’informations chez Orange sont confrontées à des flux importants de données textuelles, recouvrant des domaines larges et évoluant très rapidement. Un des problèmes à résoudre est de pouvoir analyser très rapidement ces flux, à un niveau élevé de qualité. Le recours à un modèle d’analyse sémantique, comme solution, n’est viable qu’en s’appuyant sur l’apprentissage automatique pour construire des grandes bases de connaissances dédiées à chaque application. L’extraction terminologique décrite dans cet article est un composant amont de ce dispositif d’apprentissage. Des nouvelles méthodes d’acquisition, basée sur un modèle hybride (analyse par grammaires de chunking et analyse statistique à deux niveaux), ont été développées pour répondre aux contraintes de performance et de qualité.
Anthology ID:
2011.jeptalnrecital-long.18
Volume:
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Month:
June
Year:
2011
Address:
Montpellier, France
Editors:
Mathieu Lafourcade, Violaine Prince
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
200–210
Language:
French
URL:
https://aclanthology.org/2011.jeptalnrecital-long.18
DOI:
Bibkey:
Cite (ACL):
Edmond Lassalle. 2011. Acquisition automatique de terminologie à partir de corpus de texte (Automatic terminology acquisition from text corpora). In Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs, pages 200–210, Montpellier, France. ATALA.
Cite (Informal):
Acquisition automatique de terminologie à partir de corpus de texte (Automatic terminology acquisition from text corpora) (Lassalle, JEP/TALN/RECITAL 2011)
Copy Citation:
PDF:
https://aclanthology.org/2011.jeptalnrecital-long.18.pdf