Yamina Tlili-Guiassa


2013

2005

Jusqu’a présent il n’y a pas de système automatique complet pour l’étiquetage du texte arabe. Les méthodes qu’elles soient basées sur des règles explicites ou sur des calculs statistiques, ont été développées pour pallier au problème de l’ambiguïté lexicale. Celles-ci introduisent des informations sur le contexte immédiat des mots, mais font l’impasse sur les exceptions qui échappent aux traitements. L’apparition des méthodes Memory-Based Learning(MBL) a permis l’exploitation automatique de la similarité de l’information contenue dans de grandes masses de textes et , en cas d’anomalie, permet de déduire la catégorie la plus probable dans un contexte donné, sans que le linguiste ait à formuler des règles explicites. Ce papier qui présente une approche hybride combine les méthodes à base de règles et MBL afin d’optimiser la performance de l’étiqueteur. Les résultats ainsi obtenus, présentés en section 6, sont satisfaisants et l’ objectif recherché est atteint.