Fusion d’espaces de représentations multimodaux pour la reconnaissance du rôle du locuteur dans des documents télévisuels (Multimodal embedding fusion for robust speaker role recognition in video broadcast )

Sebastien Delecraz, Frederic Bechet, Benoit Favre, Mickael Rouvier


Abstract
L’identification du rôle d’un locuteur dans des émissions de télévision est un problème de classification de personne selon une liste de rôles comme présentateur, journaliste, invité, etc. À cause de la nonsynchronie entre les modalités, ainsi que par le manque de corpus de vidéos annotées dans toutes les modalités, seulement une des modalités est souvent utilisée. Nous présentons dans cet article une fusion multimodale des espaces de représentations de l’audio, du texte et de l’image pour la reconnaissance du rôle du locuteur pour des données asynchrones. Les espaces de représentations monomodaux sont entraînés sur des corpus de données exogènes puis ajustés en utilisant des réseaux de neurones profonds sur un corpus d’émissions françaises pour notre tâche de classification. Les expériences réalisées sur le corpus de données REPERE ont mis en évidence les gains d’une fusion au niveau des espaces de représentations par rapport aux méthodes de fusion tardive standard.
Anthology ID:
2016.jeptalnrecital-jep.41
Volume:
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 1 : JEP
Month:
7
Year:
2016
Address:
Paris, France
Editors:
Laurence Danlos, Thierry Hamon
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
AFCP - ATALA
Note:
Pages:
364–372
Language:
French
URL:
https://aclanthology.org/2016.jeptalnrecital-jep.41
DOI:
Bibkey:
Cite (ACL):
Sebastien Delecraz, Frederic Bechet, Benoit Favre, and Mickael Rouvier. 2016. Fusion d’espaces de représentations multimodaux pour la reconnaissance du rôle du locuteur dans des documents télévisuels (Multimodal embedding fusion for robust speaker role recognition in video broadcast ). In Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 1 : JEP, pages 364–372, Paris, France. AFCP - ATALA.
Cite (Informal):
Fusion d’espaces de représentations multimodaux pour la reconnaissance du rôle du locuteur dans des documents télévisuels (Multimodal embedding fusion for robust speaker role recognition in video broadcast ) (Delecraz et al., JEP/TALN/RECITAL 2016)
Copy Citation:
PDF:
https://aclanthology.org/2016.jeptalnrecital-jep.41.pdf