Construction d’un jeu de données de publications scientifiques pour le TAL et la fouille de textes à partir d’ISTEX

Constant Mathieu


Abstract
La plateforme ISTEX (https://www.istex.fr/) permet d’accéder à une large base d’archives scientifiques comptant plus de 25 millions de documents de tous les grands domaines scientifiques. Les documents incluent non seulement les métadonnées mais aussi le texte plein, et ont été prétraités de manière homogène pour faciliter leur traitement automatique. Dans cet exposé, nous présenterons une initiative pour créer une dynamique de recherche en TAL et TDM autour de ces données. En particulier, nous présenterons les travaux en cours pour la construction d’un jeu de données dédié au TAL et la fouille de textes.
Anthology ID:
2023.jeptalnrecital-arts.13
Volume:
Actes de CORIA-TALN 2023. Actes de l'atelier "Analyse et Recherche de Textes Scientifiques" (ARTS)@TALN 2023
Month:
6
Year:
2023
Address:
Paris, France
Editors:
Florian Boudin, Béatrice Daille, Richard Dufour, Oumaima El, Maël Houbre, Léane Jourdan, Nihel Kooli
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
79–79
Language:
French
URL:
https://aclanthology.org/2023.jeptalnrecital-arts.13
DOI:
Bibkey:
Cite (ACL):
Constant Mathieu. 2023. Construction d’un jeu de données de publications scientifiques pour le TAL et la fouille de textes à partir d’ISTEX. In Actes de CORIA-TALN 2023. Actes de l'atelier "Analyse et Recherche de Textes Scientifiques" (ARTS)@TALN 2023, pages 79–79, Paris, France. ATALA.
Cite (Informal):
Construction d’un jeu de données de publications scientifiques pour le TAL et la fouille de textes à partir d’ISTEX (Mathieu, JEP/TALN/RECITAL 2023)
Copy Citation:
PDF:
https://aclanthology.org/2023.jeptalnrecital-arts.13.pdf