@inproceedings{wu-2010-outils,
title = "Outils de segmentation du chinois et textom{\'e}trie",
author = "Wu, Li-Chi",
editor = "Patry, Alexandre and
Langlais, Philippe and
Max, Aur{\'e}lien",
booktitle = "Actes de la 17e conf{\'e}rence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues",
month = jul,
year = "2010",
address = "Montr{\'e}al, Canada",
publisher = "ATALA",
url = "https://aclanthology.org/2010.jeptalnrecital-recital.3",
pages = "21--33",
abstract = "La segmentation en mots est une premi{\`e}re {\'e}tape possible dans le traitement automatique de la langue chinoise. Les syst{\`e}mes de segmentation se sont beaucoup d{\'e}velopp{\'e}s depuis le premier apparu dans les ann{\'e}es 1980. Il n{'}existe cependant aucun outil standard aujourd{'}hui. L{'}objectif de ce travail est de faire une comparaison des diff{\'e}rents outils de segmentation en s{'}appuyant sur une analyse statistique. Le but est de d{\'e}finir pour quel type de texte chacun d{'}eux est le plus performant. Quatre outils de segmentation et deux corpus avec des th{\`e}mes distincts ont {\'e}t{\'e} choisis pour cette {\'e}tude. {\`A} l{'}aide des outils textom{\'e}triques Lexico3 et mkAlign, nous avons centr{\'e} notre analyse sur le nombre de syllabes du chinois. Les donn{\'e}es quantitatives ont permis d{'}objectiver des diff{\'e}rences entre les outils. Le syst{\`e}me Hylanda s{'}av{\`e}re performant dans la segmentation des termes sp{\'e}cialis{\'e}s et le syst{\`e}me Stanford est plus indiqu{\'e} pour les textes g{\'e}n{\'e}raux. L{'}{\'e}tude de la comparaison des outils de segmentation montre le statut incontournable de l{'}analyse textom{\'e}trique aujourd{'}hui, celle-ci permettant d{'}avoir acc{\`e}s rapidement {\`a} la recherche d{'}information.",
language = "French",
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="wu-2010-outils">
<titleInfo>
<title>Outils de segmentation du chinois et textométrie</title>
</titleInfo>
<name type="personal">
<namePart type="given">Li-Chi</namePart>
<namePart type="family">Wu</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2010-07</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">French</languageTerm>
<languageTerm type="code" authority="iso639-2b">fre</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues</title>
</titleInfo>
<name type="personal">
<namePart type="given">Alexandre</namePart>
<namePart type="family">Patry</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Philippe</namePart>
<namePart type="family">Langlais</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Aurélien</namePart>
<namePart type="family">Max</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA</publisher>
<place>
<placeTerm type="text">Montréal, Canada</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>La segmentation en mots est une première étape possible dans le traitement automatique de la langue chinoise. Les systèmes de segmentation se sont beaucoup développés depuis le premier apparu dans les années 1980. Il n’existe cependant aucun outil standard aujourd’hui. L’objectif de ce travail est de faire une comparaison des différents outils de segmentation en s’appuyant sur une analyse statistique. Le but est de définir pour quel type de texte chacun d’eux est le plus performant. Quatre outils de segmentation et deux corpus avec des thèmes distincts ont été choisis pour cette étude. À l’aide des outils textométriques Lexico3 et mkAlign, nous avons centré notre analyse sur le nombre de syllabes du chinois. Les données quantitatives ont permis d’objectiver des différences entre les outils. Le système Hylanda s’avère performant dans la segmentation des termes spécialisés et le système Stanford est plus indiqué pour les textes généraux. L’étude de la comparaison des outils de segmentation montre le statut incontournable de l’analyse textométrique aujourd’hui, celle-ci permettant d’avoir accès rapidement à la recherche d’information.</abstract>
<identifier type="citekey">wu-2010-outils</identifier>
<location>
<url>https://aclanthology.org/2010.jeptalnrecital-recital.3</url>
</location>
<part>
<date>2010-07</date>
<extent unit="page">
<start>21</start>
<end>33</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Outils de segmentation du chinois et textométrie
%A Wu, Li-Chi
%Y Patry, Alexandre
%Y Langlais, Philippe
%Y Max, Aurélien
%S Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues
%D 2010
%8 July
%I ATALA
%C Montréal, Canada
%G French
%F wu-2010-outils
%X La segmentation en mots est une première étape possible dans le traitement automatique de la langue chinoise. Les systèmes de segmentation se sont beaucoup développés depuis le premier apparu dans les années 1980. Il n’existe cependant aucun outil standard aujourd’hui. L’objectif de ce travail est de faire une comparaison des différents outils de segmentation en s’appuyant sur une analyse statistique. Le but est de définir pour quel type de texte chacun d’eux est le plus performant. Quatre outils de segmentation et deux corpus avec des thèmes distincts ont été choisis pour cette étude. À l’aide des outils textométriques Lexico3 et mkAlign, nous avons centré notre analyse sur le nombre de syllabes du chinois. Les données quantitatives ont permis d’objectiver des différences entre les outils. Le système Hylanda s’avère performant dans la segmentation des termes spécialisés et le système Stanford est plus indiqué pour les textes généraux. L’étude de la comparaison des outils de segmentation montre le statut incontournable de l’analyse textométrique aujourd’hui, celle-ci permettant d’avoir accès rapidement à la recherche d’information.
%U https://aclanthology.org/2010.jeptalnrecital-recital.3
%P 21-33
Markdown (Informal)
[Outils de segmentation du chinois et textométrie](https://aclanthology.org/2010.jeptalnrecital-recital.3) (Wu, JEP/TALN/RECITAL 2010)
ACL
- Li-Chi Wu. 2010. Outils de segmentation du chinois et textométrie. In Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues, pages 21–33, Montréal, Canada. ATALA.