Abdelhamid El Jihad


2005

pdf bib
Etiquetage morpho-syntaxique des textes arabes par modèle de Markov caché
Abdelhamid El Jihad | Abdellah Yousfi
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (articles courts)

L’étiquetage des textes est un outil très important pour le traitement automatique de langage, il est utilisé dans plusieurs applications par exemple l’analyse morphologique et syntaxique des textes, l’indexation, la recherche documentaire, la voyellation pour la langue arabe, les modèles de langage probabilistes (modèles n-classes), etc. Dans cet article nous avons élaboré un système d’étiquetage morpho-syntaxique de la langue arabe en utilisant les modèles de Markov cachés, et ceci pour construire un corpus de référence étiqueté et représentant les principales difficultés grammaticales rencontrées en langue arabe générale. Pour l’estimation des paramètres de ce modèle, nous avons utilisé un corpus d’apprentissage étiqueté manuellement en utilisant un jeu de 52 étiquettes de nature morpho-syntaxique. Ensuite on procède à une amélioration du système grâce à la procédure de réestimation des paramètres de ce modèle.