Arthur Remaud
2021
Utilisation d’outils de TAL pour la compréhension des spécifications de validation de données (Use of NLP tools for automatic comprehension of data validation specifications)
Arthur Remaud
Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 2 : 23e REncontres jeunes Chercheurs en Informatique pour le TAL (RECITAL)
La validation de données consiste à vérifier formellement la cohérence de données utilisées en entrée de systèmes critiques. L’essentiel du travail des ingénieurs consiste donc à traduire une spécification, écrite en langage naturel, en un ensemble de règles formelles permettant l’automatisation de la vérification. Notre objectif à long terme est d’automatiser complètement le processus de validation de données. Dans cet article, nous présentons une première étape et détaillons les différentes techniques de traitement automatique de la langue que nous avons déployées pour générer un squelette de règle formelle à partir d’une spécification textuelle. La particularité de ces spécifications est qu’elles peuvent contenir beaucoup d’informations implicites qui rendent difficile la tâche de traduction. D’autre part, le fait qu’il n’existe pas de grand corpus d’apprentissage disponible rend difficile l’emploi des méthodes d’apprentissage neuronal profond. Néanmoins des approches plus classiques à base de règles et de représentations symboliques permettent d’apporter un premier élément de réponse.