Classification automatique de textes à partir de leur analyse syntaxico-sémantique

Jacques Chauché, Violaine Prince, Simon Jaillet, Maguelonne Teisseire


Abstract
L’hypothèse soutenue dans cet article est que l’analyse de contenu, quand elle est réalisée par un analyseur syntaxique robuste avec calcul sémantique dans un modèle adéquat, est un outil de classification tout aussi performant que les méthodes statistiques. Pour étudier les possibilités de cette hypothèse en matière de classification, à l’aide de l’analyseur du Français, SYGMART, nous avons réalisé un projet en grandeur réelle avec une société qui propose des sélections d’articles en revue de presse. Cet article présente non seulement les résultats de cette étude (sur 4843 articles finalement sélectionnés), mais aussi cherche à montrer que l’analyse de contenu automatisée, quand elle est possible, est un moyen fiable de produire une catégorisation issue du sens (quand il est calculable), et pas simplement créée à partir d’une reconnaissance de “similarités”de surface.
Anthology ID:
2003.jeptalnrecital-long.4
Volume:
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Month:
June
Year:
2003
Address:
Batz-sur-Mer, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
55–64
Language:
French
URL:
https://aclanthology.org/2003.jeptalnrecital-long.4
DOI:
Bibkey:
Copy Citation:
PDF:
https://aclanthology.org/2003.jeptalnrecital-long.4.pdf