Yiping Li


2008

2003

Un des problèmes rencontrés lors de l’analyse de textes en chinois est qu’il n’existe pas de séparateur entré lés mots dans cette langue. Le mot étant une unité linguistique fondamentale en traitement automatique dé la langue, il est nécessaire d’identifier les mots dans un texte chinois afin que des analysés de plus haut niveau puissent être réalisées. Le but de cet article est dé présenter un système d’idéntification dés mots basé sur un algorithme utilisant des triplets dé catégories grammaticales ét dés fréquences de mots. Cé système comprend deux dictionnaires : l’un dédié aux mots ét à léurs fréquences, l’autré aux triplets dés catégories correspondantes. Les tests qui ont été effectués révèlent que 98,5% dés phrases sont découpées correctement. Certaines erreurs sont dués à la taillé limitée du dictionnaire utilisé. Une réflexion sur la création de nouvelles catégories ét dés études proposant des règles grammaticales sont en cours de réalisation afin d’aug1nénter la performance du système.