Les n-grams de caractères pour l’aide à l’extraction de connaissances dans des bases de données textuelles multilingues

Ismaïl Biskri, Sylvain Delisle


Abstract
Une véritable classification numérique multilingue est impossible si on considère seulement le mot comme unité d’information privilégiée. En traitant les mots comme jetons, la tokenisation s’avère relativement simple pour le français et l’anglais, mais très difficile pour des langues comme l’allemand ou l’arabe. D’autre part, la lemmatisation utilisée comme moyen de normalisation et de réduction du lexique constitue un écueil non moins négligeable. La notion de n-grams, qui depuis une décennie donne de bons résultats dans Pidentification de la langue ou dans l’analyse de l’oral, est, par les recherches récentes, devenue un axe privilégié dans l’acquisition et l’extraction des connaissances dans les textes. Dans cet article, nous présenterons un outil de classification numérique basé sur le concept de n-grams de caractères. Nous évaluons aussi les résultats de cet outil que nous comparons à des résultats obtenus au moyen d’une classification fondée sur des mots.
Anthology ID:
2001.jeptalnrecital-long.7
Volume:
Actes de la 8ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Month:
July
Year:
2001
Address:
Tours, France
Editor:
Denis Maurel
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
92–101
Language:
French
URL:
https://aclanthology.org/2001.jeptalnrecital-long.7
DOI:
Bibkey:
Cite (ACL):
Ismaïl Biskri and Sylvain Delisle. 2001. Les n-grams de caractères pour l’aide à l’extraction de connaissances dans des bases de données textuelles multilingues. In Actes de la 8ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs, pages 92–101, Tours, France. ATALA.
Cite (Informal):
Les n-grams de caractères pour l’aide à l’extraction de connaissances dans des bases de données textuelles multilingues (Biskri & Delisle, JEP/TALN/RECITAL 2001)
Copy Citation:
PDF:
https://aclanthology.org/2001.jeptalnrecital-long.7.pdf