Memory-based-Learning et Base de règles pour un Etiqueteur du Texte Arabe

Yamina Tlili-Guiassa


Abstract
Jusqu’a présent il n’y a pas de système automatique complet pour l’étiquetage du texte arabe. Les méthodes qu’elles soient basées sur des règles explicites ou sur des calculs statistiques, ont été développées pour pallier au problème de l’ambiguïté lexicale. Celles-ci introduisent des informations sur le contexte immédiat des mots, mais font l’impasse sur les exceptions qui échappent aux traitements. L’apparition des méthodes Memory-Based Learning(MBL) a permis l’exploitation automatique de la similarité de l’information contenue dans de grandes masses de textes et , en cas d’anomalie, permet de déduire la catégorie la plus probable dans un contexte donné, sans que le linguiste ait à formuler des règles explicites. Ce papier qui présente une approche hybride combine les méthodes à base de règles et MBL afin d’optimiser la performance de l’étiqueteur. Les résultats ainsi obtenus, présentés en section 6, sont satisfaisants et l’ objectif recherché est atteint.
Anthology ID:
2005.jeptalnrecital-recitalcourt.13
Volume:
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (articles courts)
Month:
June
Year:
2005
Address:
Dourdan, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
709–714
Language:
French
URL:
https://aclanthology.org/2005.jeptalnrecital-recitalcourt.13
DOI:
Bibkey:
Copy Citation:
PDF:
https://aclanthology.org/2005.jeptalnrecital-recitalcourt.13.pdf