Construction automatique d’une base de données étymologiques à partir du wiktionary (Automatic construction of an etymological database using Wiktionary)

Benoît Sagot


Abstract
Les ressources lexicales électroniques ne contiennent quasiment jamais d’informations étymologiques. De telles informations, convenablement formalisées, permettraient pourtant de développer des outils automatiques au service de la linguistique historique et comparative, ainsi que d’améliorer significativement le traitement automatique de langues anciennes. Nous décrivons ici le processus que nous avons mis en œuvre pour extraire des données étymologiques à partir des notices étymologiques du wiktionary, rédigées en anglais. Nous avons ainsi produit une base multilingue de près d’un million de lexèmes et une base de plus d’un demi-million de relations étymologiques entre lexèmes.
Anthology ID:
2017.jeptalnrecital-long.12
Volume:
Actes des 24ème Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 - Articles longs
Month:
6
Year:
2017
Address:
Orléans, France
Editors:
Iris Eshkol-Taravella, Jean-Yves Antoine
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
169–181
Language:
French
URL:
https://aclanthology.org/2017.jeptalnrecital-long.12
DOI:
Bibkey:
Cite (ACL):
Benoît Sagot. 2017. Construction automatique d’une base de données étymologiques à partir du wiktionary (Automatic construction of an etymological database using Wiktionary). In Actes des 24ème Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 - Articles longs, pages 169–181, Orléans, France. ATALA.
Cite (Informal):
Construction automatique d’une base de données étymologiques à partir du wiktionary (Automatic construction of an etymological database using Wiktionary) (Sagot, JEP/TALN/RECITAL 2017)
Copy Citation:
PDF:
https://aclanthology.org/2017.jeptalnrecital-long.12.pdf