Cédric Vidrequin
2008
Extraction automatique d’informations à partir de micro-textes non structurés
Cédric Vidrequin
|
Juan-Manuel Torres-Moreno
|
Jean-Jacques Schneider
|
Marc El-Bèze
Actes de la 15ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Nous présentons dans cet article une méthode d’extraction automatique d’informations sur des textes de très petite taille, faiblement structurés. Nous travaillons sur des textes dont la rédaction n’est pas normalisée, avec très peu de mots pour caractériser chaque information. Les textes ne contiennent pas ou très peu de phrases. Il s’agit le plus souvent de morceaux de phrases ou d’expressions composées de quelques mots. Nous comparons plusieurs méthodes d’extraction, dont certaines sont entièrement automatiques. D’autres utilisent en partie une connaissance du domaine que nous voulons réduite au minimum, de façon à minimiser le travail manuel en amont. Enfin, nous présentons nos résultats qui dépassent ce dont il est fait état dans la littérature, avec une précision équivalente et un rappel supérieur.
Search