@inproceedings{biskri-delisle-2001-les,
title = "Les n-grams de caract{\`e}res pour l{'}aide {\`a} l{'}extraction de connaissances dans des bases de donn{\'e}es textuelles multilingues",
author = {Biskri, Isma{\"\i}l and
Delisle, Sylvain},
editor = "Maurel, Denis",
booktitle = "Actes de la 8{\`e}me conf{\'e}rence sur le Traitement Automatique des Langues Naturelles. Articles longs",
month = jul,
year = "2001",
address = "Tours, France",
publisher = "ATALA",
url = "https://aclanthology.org/2001.jeptalnrecital-long.7",
pages = "92--101",
abstract = "Une v{\'e}ritable classification num{\'e}rique multilingue est impossible si on consid{\`e}re seulement le mot comme unit{\'e} d{'}information privil{\'e}gi{\'e}e. En traitant les mots comme jetons, la tokenisation s{'}av{\`e}re relativement simple pour le fran{\c{c}}ais et l{'}anglais, mais tr{\`e}s difficile pour des langues comme l{'}allemand ou l{'}arabe. D{'}autre part, la lemmatisation utilis{\'e}e comme moyen de normalisation et de r{\'e}duction du lexique constitue un {\'e}cueil non moins n{\'e}gligeable. La notion de n-grams, qui depuis une d{\'e}cennie donne de bons r{\'e}sultats dans Pidentification de la langue ou dans l{'}analyse de l{'}oral, est, par les recherches r{\'e}centes, devenue un axe privil{\'e}gi{\'e} dans l{'}acquisition et l{'}extraction des connaissances dans les textes. Dans cet article, nous pr{\'e}senterons un outil de classification num{\'e}rique bas{\'e} sur le concept de n-grams de caract{\`e}res. Nous {\'e}valuons aussi les r{\'e}sultats de cet outil que nous comparons {\`a} des r{\'e}sultats obtenus au moyen d{'}une classification fond{\'e}e sur des mots.",
language = "French",
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="biskri-delisle-2001-les">
<titleInfo>
<title>Les n-grams de caractères pour l’aide à l’extraction de connaissances dans des bases de données textuelles multilingues</title>
</titleInfo>
<name type="personal">
<namePart type="given">Ismaïl</namePart>
<namePart type="family">Biskri</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Sylvain</namePart>
<namePart type="family">Delisle</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2001-07</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">French</languageTerm>
<languageTerm type="code" authority="iso639-2b">fre</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de la 8ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs</title>
</titleInfo>
<name type="personal">
<namePart type="given">Denis</namePart>
<namePart type="family">Maurel</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA</publisher>
<place>
<placeTerm type="text">Tours, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Une véritable classification numérique multilingue est impossible si on considère seulement le mot comme unité d’information privilégiée. En traitant les mots comme jetons, la tokenisation s’avère relativement simple pour le français et l’anglais, mais très difficile pour des langues comme l’allemand ou l’arabe. D’autre part, la lemmatisation utilisée comme moyen de normalisation et de réduction du lexique constitue un écueil non moins négligeable. La notion de n-grams, qui depuis une décennie donne de bons résultats dans Pidentification de la langue ou dans l’analyse de l’oral, est, par les recherches récentes, devenue un axe privilégié dans l’acquisition et l’extraction des connaissances dans les textes. Dans cet article, nous présenterons un outil de classification numérique basé sur le concept de n-grams de caractères. Nous évaluons aussi les résultats de cet outil que nous comparons à des résultats obtenus au moyen d’une classification fondée sur des mots.</abstract>
<identifier type="citekey">biskri-delisle-2001-les</identifier>
<location>
<url>https://aclanthology.org/2001.jeptalnrecital-long.7</url>
</location>
<part>
<date>2001-07</date>
<extent unit="page">
<start>92</start>
<end>101</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Les n-grams de caractères pour l’aide à l’extraction de connaissances dans des bases de données textuelles multilingues
%A Biskri, Ismaïl
%A Delisle, Sylvain
%Y Maurel, Denis
%S Actes de la 8ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
%D 2001
%8 July
%I ATALA
%C Tours, France
%G French
%F biskri-delisle-2001-les
%X Une véritable classification numérique multilingue est impossible si on considère seulement le mot comme unité d’information privilégiée. En traitant les mots comme jetons, la tokenisation s’avère relativement simple pour le français et l’anglais, mais très difficile pour des langues comme l’allemand ou l’arabe. D’autre part, la lemmatisation utilisée comme moyen de normalisation et de réduction du lexique constitue un écueil non moins négligeable. La notion de n-grams, qui depuis une décennie donne de bons résultats dans Pidentification de la langue ou dans l’analyse de l’oral, est, par les recherches récentes, devenue un axe privilégié dans l’acquisition et l’extraction des connaissances dans les textes. Dans cet article, nous présenterons un outil de classification numérique basé sur le concept de n-grams de caractères. Nous évaluons aussi les résultats de cet outil que nous comparons à des résultats obtenus au moyen d’une classification fondée sur des mots.
%U https://aclanthology.org/2001.jeptalnrecital-long.7
%P 92-101
Markdown (Informal)
[Les n-grams de caractères pour l’aide à l’extraction de connaissances dans des bases de données textuelles multilingues](https://aclanthology.org/2001.jeptalnrecital-long.7) (Biskri & Delisle, JEP/TALN/RECITAL 2001)
ACL