Bassam Jabaian


2018

pdf bib
Automation and Optimisation of Humor Trait Generation in a Vocal Dialogue System
Matthieu Riou | Stéphane Huet | Bassam Jabaian | Fabrice Lefèvre
Proceedings of the Workshop on Intelligent Interactive Systems and Language Generation (2IS&NLG)

2017

pdf bib
Apprentissage en ligne interactif d’un générateur en langage naturel neuronal pour le dialogue homme-machine (On-line Interactive Learning of Natural Language Neural Generation for Human-machine)
Matthieu Riou | Bassam Jabaian | Stéphane Huet | Fabrice Lefèvre
Actes des 24ème Conférence sur le Traitement Automatique des Langues Naturelles. Volume 2 - Articles courts

Récemment, de nouveaux modèles à base de réseaux de neurones récurrents ont été proposés pour traiter la génération en langage naturel dans des systèmes de dialogue (Wen et al., 2016a). Ces modèles demandent une grande quantité de données d’apprentissage ; or la collecte et l’annotation de ces données peuvent être laborieuses. Pour répondre à cette problématique, nous nous intéressons ici à la mise en place d’un protocole d’apprentissage en ligne basé sur un apprentissage par renforcement, permettant d’améliorer l’utilisation d’un modèle initial appris sur un corpus plus restreint généré par patrons. Dans cette étude exploratoire, nous proposons une approche basée sur un algorithme de bandit contre un adversaire, afin d’en étudier l’intérêt et les limites.

2016

pdf bib
Optimiser l’adaptation en ligne d’un module de compréhension de la parole avec un algorithme de bandit contre un adversaire (Adversarial bandit for optimising online active learning of spoken language understanding)
Emmanuel Ferreira | Alexandre Reiffers-Masson | Bassam Jabaian | Fabrice Lefèvre
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 1 : JEP

De nombreux modules de compréhension de la parole ont en commun d’être probabilistes et basés sur des algorithmes d’apprentissage automatique. Deux difficultés majeures, rencontrées par toutes les méthodes existantes sont : le coût de la collecte des données et l’adaptation d’un module existant à un nouveau domaine. Dans cet article, nous proposons un processus d’adaptation en ligne avec une politique apprise en utilisant un algorithme de type bandit contre un adversaire. Nous montrons que cette proposition peut permettre d’optimiser un équilibre entre le coût de la collecte des retours demandés aux utilisateurs et la performance globale de la compréhension du langage parlé après sa mise à jour.

pdf bib
Automatic Corpus Extension for Data-driven Natural Language Generation
Elena Manishina | Bassam Jabaian | Stéphane Huet | Fabrice Lefèvre
Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16)

As data-driven approaches started to make their way into the Natural Language Generation (NLG) domain, the need for automation of corpus building and extension became apparent. Corpus creation and extension in data-driven NLG domain traditionally involved manual paraphrasing performed by either a group of experts or with resort to crowd-sourcing. Building the training corpora manually is a costly enterprise which requires a lot of time and human resources. We propose to automate the process of corpus extension by integrating automatically obtained synonyms and paraphrases. Our methodology allowed us to significantly increase the size of the training corpus and its level of variability (the number of distinct tokens and specific syntactic structures). Our extension solutions are fully automatic and require only some initial validation. The human evaluation results confirm that in many cases native speakers favor the outputs of the model built on the extended corpus.

2015

pdf bib
Compréhension automatique de la parole sans données de référence
Emmanuel Ferreira | Bassam Jabaian | Fabrice Lefèvre
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

La majorité des méthodes état de l’art en compréhension automatique de la parole ont en commun de devoir être apprises sur une grande quantité de données annotées. Cette dépendance aux données constitue un réel obstacle lors du développement d’un système pour une nouvelle tâche/langue. Aussi, dans cette étude, nous présentons une méthode visant à limiter ce besoin par un mécanisme d’apprentissage sans données de référence (zero-shot learning). Cette méthode combine une description ontologique minimale de la tâche visée avec l’utilisation d’un espace sémantique continu appris par des approches à base de réseaux de neurones à partir de données génériques non-annotées. Nous montrons que le modèle simple et peu coûteux obtenu peut atteindre, dès le démarrage, des performances comparables à celles des systèmes état de l’art reposant sur des règles expertes ou sur des approches probabilistes sur des tâches de compréhension de la parole de référence (tests des Dialog State Tracking Challenges, DSTC2 et DSTC3). Nous proposons ensuite une stratégie d’adaptation en ligne permettant d’améliorer encore les performances de notre approche à l’aide d’une supervision faible et ajustable par l’utilisateur.

2014

pdf bib
Classification and Optimization Algorithms: the LIA/ADOC participation at DEFT’14 (Algorithmes de classification et d’optimisation : participation du LIA/ADOC à DEFT’14) [in French]
Luis Adrián Cabrera-Diego | Stéphane Huet | Bassam Jabaian | Alejandro Molina | Juan-Manuel Torres-Moreno | Marc El-Bèze | Barthélémy Durette
TALN-RECITAL 2014 Workshop DEFT 2014 : DÉfi Fouille de Textes (DEFT 2014 Workshop: Text Mining Challenge)

2013

pdf bib
Discriminative statistical approaches for multilingual speech understanding (Approches statistiques discriminantes pour l’interprétation sémantique multilingue de la parole) [in French]
Bassam Jabaian | Fabrice Lefèvre | Laurent Besacier
Proceedings of TALN 2013 (Volume 1: Long Papers)

2012

pdf bib
Leveraging study of robustness and portability of spoken language understanding systems across languages and domains: the PORTMEDIA corpora
Fabrice Lefèvre | Djamel Mostefa | Laurent Besacier | Yannick Estève | Matthieu Quignard | Nathalie Camelin | Benoit Favre | Bassam Jabaian | Lina M. Rojas-Barahona
Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12)

The PORTMEDIA project is intended to develop new corpora for the evaluation of spoken language understanding systems. The newly collected data are in the field of human-machine dialogue systems for tourist information in French in line with the MEDIA corpus. Transcriptions and semantic annotations, obtained by low-cost procedures, are provided to allow a thorough evaluation of the systems' capabilities in terms of robustness and portability across languages and domains. A new test set with some adaptation data is prepared for each case: in Italian as an example of a new language, for ticket reservation as an example of a new domain. Finally the work is complemented by the proposition of a new high level semantic annotation scheme well-suited to dialogue data.

pdf bib
Robustesse et portabilités multilingue et multi-domaines des systèmes de compréhension de la parole : les corpus du projet PortMedia (Robustness and portability of spoken language understanding systems among languages and domains : the PORTMEDIA project) [in French]
Fabrice Lefèvre | Djamel Mostefa | Laurent Besacier | Yannick Estève | Matthieu Quignard | Nathalie Camelin | Benoit Favre | Bassam Jabaian | Lina Rojas-Barahona
Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 1: JEP

2011

pdf bib
Comparaison et combinaison d’approches pour la portabilité vers une nouvelle langue d’un système de compréhension de l’oral (Comparison and combination of approaches for the portability to a new language of an oral comprehension system)
Bassam Jabaian | Laurent Besacier | Fabrice Lefèvre
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Dans cet article, nous proposons plusieurs approches pour la portabilité du module de compréhension de la parole (SLU) d’un système de dialogue d’une langue vers une autre. On montre que l’utilisation des traductions automatiques statistiques (SMT) aide à réduire le temps et le cout de la portabilité d’un tel système d’une langue source vers une langue cible. Pour la tache d’étiquetage sémantique on propose d’utiliser soit les champs aléatoires conditionnels (CRF), soit l’approche à base de séquences (PH-SMT). Les résultats expérimentaux montrent l’efficacité des méthodes proposées pour une portabilité rapide du SLU vers une nouvelle langue. On propose aussi deux méthodes pour accroître la robustesse du SLU aux erreurs de traduction. Enfin on montre que la combinaison de ces approches réduit les erreurs du système. Ces travaux sont motivés par la disponibilité du corpus MEDIA français et de la traduction manuelle vers l’italien d’une sous partie de ce corpus.