Décodage conceptuel et apprentissage automatique : application au corpus de dialogue Homme-Machine MEDIA

Christophe Servan, Frédéric Béchet


Abstract
Cette étude présente les travaux du LIA effectués sur le corpus de dialogue homme-machine MEDIA et visant à proposer des méthodes d’analyse robuste permettant d’extraire d’un message audio une séquence de concepts élémentaires. Le modèle de décodage conceptuel présenté est basé sur une approche stochastique qui intègre directement le processus de compréhension au processus de Reconnaissance Automatique de la Parole (RAP). Cette approche permet de garder l’espace probabiliste des phrases produit en sortie du module de RAP et de le projeter vers un espace probabiliste de séquences de concepts. Les expériences menées sur le corpus MEDIA montrent que les performances atteintes par notre modèle sont au niveau des meilleurs systèmes ayant participé à l’évaluation sur des transcriptions manuelles de dialogues. En détaillant les performances du système en fonction de la taille du corpus d’apprentissage on peut mesurer le nombre minimal ainsi que le nombre optimal de dialogues nécessaires à l’apprentissage des modèles. Enfin nous montrons comment des connaissances a priori peuvent être intégrées dans nos modèles afin d’augmenter significativement leur couverture en diminuant, à performance égale, l’effort de constitution et d’annotation du corpus d’apprentissage.
Anthology ID:
2006.jeptalnrecital-long.30
Volume:
Actes de la 13ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Month:
April
Year:
2006
Address:
Leuven, Belgique
Editors:
Piet Mertens, Cédrick Fairon, Anne Dister, Patrick Watrin
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
328–337
Language:
French
URL:
https://aclanthology.org/2006.jeptalnrecital-long.30
DOI:
Bibkey:
Cite (ACL):
Christophe Servan and Frédéric Béchet. 2006. Décodage conceptuel et apprentissage automatique : application au corpus de dialogue Homme-Machine MEDIA. In Actes de la 13ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs, pages 328–337, Leuven, Belgique. ATALA.
Cite (Informal):
Décodage conceptuel et apprentissage automatique : application au corpus de dialogue Homme-Machine MEDIA (Servan & Béchet, JEP/TALN/RECITAL 2006)
Copy Citation:
PDF:
https://aclanthology.org/2006.jeptalnrecital-long.30.pdf