Simon Jaillet


2003

pdf bib
Classification automatique de textes à partir de leur analyse syntaxico-sémantique
Jacques Chauché | Violaine Prince | Simon Jaillet | Maguelonne Teisseire
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

L’hypothèse soutenue dans cet article est que l’analyse de contenu, quand elle est réalisée par un analyseur syntaxique robuste avec calcul sémantique dans un modèle adéquat, est un outil de classification tout aussi performant que les méthodes statistiques. Pour étudier les possibilités de cette hypothèse en matière de classification, à l’aide de l’analyseur du Français, SYGMART, nous avons réalisé un projet en grandeur réelle avec une société qui propose des sélections d’articles en revue de presse. Cet article présente non seulement les résultats de cette étude (sur 4843 articles finalement sélectionnés), mais aussi cherche à montrer que l’analyse de contenu automatisée, quand elle est possible, est un moyen fiable de produire une catégorisation issue du sens (quand il est calculable), et pas simplement créée à partir d’une reconnaissance de “similarités”de surface.