Yuri Khokhlov


2016

pdf bib
Exploration de paramètres acoustiques dérivés de GMM pour l’adaptation non supervisée de modèles acoustiques à base de réseaux de neurones profonds (Exploring GMM-derived features for unsupervised adaptation of deep neural network acoustic models)
Natalia Tomashenko | Yuri Khokhlov | Anthony Larcher | Yannick Estève
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 1 : JEP

L’étude présentée dans cet article améliore une méthode récemment proposée pour l’adaptation de modèles acoustiques markoviens couplés à un réseau de neurones profond (DNN-HMM). Cette méthode d’adaptation utilise des paramètres acoustiques dérivés de mixtures de modèles Gaussiens (GMM-derived features, GMMD ). L’amélioration provient de l’emploi de scores et de mesures de confiance calculés à partir de graphes construits dans le cadre d’un algorithme d’adaptation conventionnel dit de maximum a posteriori (MAP). Une version modifiée de l’adaptation MAP est appliquée sur le modèle GMM auxiliaire utilisé dans une procédure d’apprentissage adaptatif au locuteur (speaker adaptative training, SAT) lors de l’apprentissage du DNN. Des expériences menées sur le corpus Wall Street Journal (WSJ0) montrent que la technique d’adaptation non supervisée proposée dans cet article permet une réduction relative de 8, 4% du taux d’erreurs sur les mots (WER), par rapport aux résultats obtenus avec des modèles DNN-HMM indépendants du locuteur utilisant des paramètres acoustiques plus conventionnels.