Céline Manenti
2016
Influence de la quantité de données sur une tâche de segmentation de phones fondée sur les réseaux de neurones (Phone-level speech segmentation with neural networks : influence of the amount of data )
Céline Manenti
|
Thomas Pellegrini
|
Julien Pinquier
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 1 : JEP
Dans cet article, nous décrivons une étude expérimentale de segmentation de parole en unités acoustiques sous-lexicales (phones) à l’aide de réseaux de neurones. Sur le corpus de parole spontanée d’anglais américain BUCKEYE, une F-mesure de 68% a été obtenue à l’aide d’un réseau convolutif, en considérant une marge d’erreur de 10 ms. Cette performance est supérieure à celle d’un annotateur manuel, l’accord inter-annotateurs étant de 62%. Restreindre les données d’apprentissage à celles d’un unique locuteur, 30 minutes environ, a eu pour conséquence moins de 10% de perte et utiliser celles de 5 locuteurs a permis d’atteindre des résultats similaires à utiliser plus de données. Utiliser le modèle entraîné avec le corpus anglais sur un petit corpus d’une langue peu dotée a donné des résultats comparables à estimer un modèle avec des données de cette langue.