Outils de segmentation du chinois et textométrie

Li-Chi Wu

Outils de segmentation du chinois et textométrie

Abstract

La segmentation en mots est une première étape possible dans le traitement automatique de la langue chinoise. Les systèmes de segmentation se sont beaucoup développés depuis le premier apparu dans les années 1980. Il n’existe cependant aucun outil standard aujourd’hui. L’objectif de ce travail est de faire une comparaison des différents outils de segmentation en s’appuyant sur une analyse statistique. Le but est de définir pour quel type de texte chacun d’eux est le plus performant. Quatre outils de segmentation et deux corpus avec des thèmes distincts ont été choisis pour cette étude. À l’aide des outils textométriques Lexico3 et mkAlign, nous avons centré notre analyse sur le nombre de syllabes du chinois. Les données quantitatives ont permis d’objectiver des différences entre les outils. Le système Hylanda s’avère performant dans la segmentation des termes spécialisés et le système Stanford est plus indiqué pour les textes généraux. L’étude de la comparaison des outils de segmentation montre le statut incontournable de l’analyse textométrique aujourd’hui, celle-ci permettant d’avoir accès rapidement à la recherche d’information.

Anthology ID:: 2010.jeptalnrecital-recital.3
Volume:: Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues
Month:: July
Year:: 2010
Address:: Montréal, Canada
Editors:: Alexandre Patry, Philippe Langlais, Aurélien Max
Venue:: JEP/TALN/RECITAL
SIG:
Publisher:: ATALA
Note:
Pages:: 21–33
Language:: French
URL:: https://aclanthology.org/2010.jeptalnrecital-recital.3/
DOI:
Bibkey:
Cite (ACL):: Li-Chi Wu. 2010. Outils de segmentation du chinois et textométrie. In Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues, pages 21–33, Montréal, Canada. ATALA.
Cite (Informal):: Outils de segmentation du chinois et textométrie (Wu, JEP/TALN/RECITAL 2010)
Copy Citation:
PDF:: https://aclanthology.org/2010.jeptalnrecital-recital.3.pdf

PDF Cite Search Fix data