Edmond Lassalle
2011
Acquisition automatique de terminologie à partir de corpus de texte (Automatic terminology acquisition from text corpora)
Edmond Lassalle
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Les applications de recherche d’informations chez Orange sont confrontées à des flux importants de données textuelles, recouvrant des domaines larges et évoluant très rapidement. Un des problèmes à résoudre est de pouvoir analyser très rapidement ces flux, à un niveau élevé de qualité. Le recours à un modèle d’analyse sémantique, comme solution, n’est viable qu’en s’appuyant sur l’apprentissage automatique pour construire des grandes bases de connaissances dédiées à chaque application. L’extraction terminologique décrite dans cet article est un composant amont de ce dispositif d’apprentissage. Des nouvelles méthodes d’acquisition, basée sur un modèle hybride (analyse par grammaires de chunking et analyse statistique à deux niveaux), ont été développées pour répondre aux contraintes de performance et de qualité.
Search