Dominique Fontaine


2005

Cet article présente une méthode d’indexation automatique de documents basée sur une approche linguistique et statistique. Cette dernière est une combinaison séquentielle de l’analyse linguistique du document à indexer par l’extraction des termes significatifs du document et de l’analyse statistique par la décomposition en valeurs singulières des mots composant le document. La pondération des termes tire avantage de leur contexte local, par rapport au document, global, par rapport à la base de données, et de leur position par rapport aux autres termes, les co-occurrences. Le système d’indexation présenté fait des propositions d’affectations du document à un référentiel métier dont les thèmes sont prédéfinis. Nous présentons les résultats de l’expérimentation de ce système menée sur un corpus des pôles métiers de la société Suez-Environnement.