Constitution d’un corpus de français tchaté

Achille Falaise


Abstract
Nous présentons dans cet article un corpus de français tchaté, destiné à l’étude de la langue du tchat. Ce corpus, collecté et encodé automatiquement, est remarquable avant tout par son étendue, puisqu’il couvre un total de 4 millions de messages sur 105 canaux, hétérogènes sur les plans thématique et pragmatique. Son codage simple ne sera toutefois pas satisfaisant pour tous les usages. Il est disponible sur un site Internet, et consultable grâce à une interface web.
Anthology ID:
2005.jeptalnrecital-recital.10
Volume:
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues
Month:
June
Year:
2005
Address:
Dourdan, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
615–624
Language:
French
URL:
https://aclanthology.org/2005.jeptalnrecital-recital.10
DOI:
Bibkey:
Copy Citation:
PDF:
https://aclanthology.org/2005.jeptalnrecital-recital.10.pdf