La génération de textes artificiels en substitution ou en complément de données d’apprentissage (Generating artificial texts as substitution or complement of training data )

Vincent Claveau, Antoine Chaffin, Ewa Kijak


Abstract
La qualité des textes générés artificiellement s’est considérablement améliorée avec l’apparition des transformers. La question d’utiliser ces modèles pour augmenter les données d’apprentissage pour des tâches d’apprentissage supervisé se pose naturellement. Dans cet article, cette question est explorée sous 3 aspects : (i) les données artificielles sont-elles un complément efficace ? (ii) peuvent-elles remplacer les données d’origines quand ces dernières ne peuvent pas être distribuées, par exemple pour des raisons de confidentialité ? (iii) peuvent-elles améliorer l’explicabilité des classifieurs ? Différentes expériences sont menées sur une tâche de classification en utilisant des données générées artificiellement en adaptant des modèles GPT-2. Les résultats montrent que les données artificielles ne sont pas encore suffisamment bonnes et nécessitent un pré-traitement pour améliorer significativement les performances. Nous montrons que les approches sac-de-mots bénéficient le plus de telles augmentations de données.
Anthology ID:
2021.jeptalnrecital-taln.4
Volume:
Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale
Month:
6
Year:
2021
Address:
Lille, France
Editors:
Pascal Denis, Natalia Grabar, Amel Fraisse, Rémi Cardon, Bernard Jacquemin, Eric Kergosien, Antonio Balvet
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
37–49
Language:
French
URL:
https://aclanthology.org/2021.jeptalnrecital-taln.4
DOI:
Bibkey:
Cite (ACL):
Vincent Claveau, Antoine Chaffin, and Ewa Kijak. 2021. La génération de textes artificiels en substitution ou en complément de données d’apprentissage (Generating artificial texts as substitution or complement of training data ). In Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale, pages 37–49, Lille, France. ATALA.
Cite (Informal):
La génération de textes artificiels en substitution ou en complément de données d’apprentissage (Generating artificial texts as substitution or complement of training data ) (Claveau et al., JEP/TALN/RECITAL 2021)
Copy Citation:
PDF:
https://aclanthology.org/2021.jeptalnrecital-taln.4.pdf
Data
FLUE