Sélection de critères pour le filtrage automatique de messages

Omar Nouali


Abstract
La plupart des systèmes de filtrage du courrier électronique existants enregistrent des lacunes ou faiblesses sur l’efficacité du filtrage. Certains systèmes sont basés seulement sur le traitement de la partie structurée (un ensemble de règles sur l’entête du message), et d’autres sont basés sur un balayage superficiel de la partie texte du message (occurrence d’un ensemble de mots clés décrivant les intérêts de l’utilisateur). Cet article propose une double amélioration de ces systèmes. D’une part, nous proposons un ensemble de critères automatisables et susceptibles d’influer sur le processus de filtrage. Ces critères sont des indices qui portent généralement sur la structure et le contenu des messages. D’autre part, nous utilisons une méthode d’apprentissage automatique permettant au système d’apprendre à partir de données et de s’adapter à la nature des mails dans le temps. Dans cet article, nous nous intéressons à un type de messages bien particulier, qui continue à polluer nos boîtes emails de façon croissante : les messages indésirables, appelés spam. Nous présentons à la fin les résultats d’une expérience d’évaluation.
Anthology ID:
2003.jeptalnrecital-recitalposter.8
Volume:
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (Posters)
Month:
June
Year:
2003
Address:
Batz-sur-Mer, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
547–552
Language:
French
URL:
https://aclanthology.org/2003.jeptalnrecital-recitalposter.8
DOI:
Bibkey:
Copy Citation:
PDF:
https://aclanthology.org/2003.jeptalnrecital-recitalposter.8.pdf