@inproceedings{delecraz-etal-2016-fusion,
title = "Fusion d{'}espaces de repr{\'e}sentations multimodaux pour la reconnaissance du r{\^o}le du locuteur dans des documents t{\'e}l{\'e}visuels (Multimodal embedding fusion for robust speaker role recognition in video broadcast )",
author = "Delecraz, Sebastien and
Bechet, Frederic and
Favre, Benoit and
Rouvier, Mickael",
editor = "Danlos, Laurence and
Hamon, Thierry",
booktitle = "Actes de la conf{\'e}rence conjointe JEP-TALN-RECITAL 2016. volume 1 : JEP",
month = "7",
year = "2016",
address = "Paris, France",
publisher = "AFCP - ATALA",
url = "https://aclanthology.org/2016.jeptalnrecital-jep.41",
pages = "364--372",
abstract = "L{'}identification du r{\^o}le d{'}un locuteur dans des {\'e}missions de t{\'e}l{\'e}vision est un probl{\`e}me de classification de personne selon une liste de r{\^o}les comme pr{\'e}sentateur, journaliste, invit{\'e}, etc. {\`A} cause de la nonsynchronie entre les modalit{\'e}s, ainsi que par le manque de corpus de vid{\'e}os annot{\'e}es dans toutes les modalit{\'e}s, seulement une des modalit{\'e}s est souvent utilis{\'e}e. Nous pr{\'e}sentons dans cet article une fusion multimodale des espaces de repr{\'e}sentations de l{'}audio, du texte et de l{'}image pour la reconnaissance du r{\^o}le du locuteur pour des donn{\'e}es asynchrones. Les espaces de repr{\'e}sentations monomodaux sont entra{\^\i}n{\'e}s sur des corpus de donn{\'e}es exog{\`e}nes puis ajust{\'e}s en utilisant des r{\'e}seaux de neurones profonds sur un corpus d{'}{\'e}missions fran{\c{c}}aises pour notre t{\^a}che de classification. Les exp{\'e}riences r{\'e}alis{\'e}es sur le corpus de donn{\'e}es REPERE ont mis en {\'e}vidence les gains d{'}une fusion au niveau des espaces de repr{\'e}sentations par rapport aux m{\'e}thodes de fusion tardive standard.",
language = "French",
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="delecraz-etal-2016-fusion">
<titleInfo>
<title>Fusion d’espaces de représentations multimodaux pour la reconnaissance du rôle du locuteur dans des documents télévisuels (Multimodal embedding fusion for robust speaker role recognition in video broadcast )</title>
</titleInfo>
<name type="personal">
<namePart type="given">Sebastien</namePart>
<namePart type="family">Delecraz</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Frederic</namePart>
<namePart type="family">Bechet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Benoit</namePart>
<namePart type="family">Favre</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Mickael</namePart>
<namePart type="family">Rouvier</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2016-07</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">French</languageTerm>
<languageTerm type="code" authority="iso639-2b">fre</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 1 : JEP</title>
</titleInfo>
<name type="personal">
<namePart type="given">Laurence</namePart>
<namePart type="family">Danlos</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Thierry</namePart>
<namePart type="family">Hamon</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>AFCP - ATALA</publisher>
<place>
<placeTerm type="text">Paris, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>L’identification du rôle d’un locuteur dans des émissions de télévision est un problème de classification de personne selon une liste de rôles comme présentateur, journaliste, invité, etc. À cause de la nonsynchronie entre les modalités, ainsi que par le manque de corpus de vidéos annotées dans toutes les modalités, seulement une des modalités est souvent utilisée. Nous présentons dans cet article une fusion multimodale des espaces de représentations de l’audio, du texte et de l’image pour la reconnaissance du rôle du locuteur pour des données asynchrones. Les espaces de représentations monomodaux sont entraînés sur des corpus de données exogènes puis ajustés en utilisant des réseaux de neurones profonds sur un corpus d’émissions françaises pour notre tâche de classification. Les expériences réalisées sur le corpus de données REPERE ont mis en évidence les gains d’une fusion au niveau des espaces de représentations par rapport aux méthodes de fusion tardive standard.</abstract>
<identifier type="citekey">delecraz-etal-2016-fusion</identifier>
<location>
<url>https://aclanthology.org/2016.jeptalnrecital-jep.41</url>
</location>
<part>
<date>2016-7</date>
<extent unit="page">
<start>364</start>
<end>372</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Fusion d’espaces de représentations multimodaux pour la reconnaissance du rôle du locuteur dans des documents télévisuels (Multimodal embedding fusion for robust speaker role recognition in video broadcast )
%A Delecraz, Sebastien
%A Bechet, Frederic
%A Favre, Benoit
%A Rouvier, Mickael
%Y Danlos, Laurence
%Y Hamon, Thierry
%S Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 1 : JEP
%D 2016
%8 July
%I AFCP - ATALA
%C Paris, France
%G French
%F delecraz-etal-2016-fusion
%X L’identification du rôle d’un locuteur dans des émissions de télévision est un problème de classification de personne selon une liste de rôles comme présentateur, journaliste, invité, etc. À cause de la nonsynchronie entre les modalités, ainsi que par le manque de corpus de vidéos annotées dans toutes les modalités, seulement une des modalités est souvent utilisée. Nous présentons dans cet article une fusion multimodale des espaces de représentations de l’audio, du texte et de l’image pour la reconnaissance du rôle du locuteur pour des données asynchrones. Les espaces de représentations monomodaux sont entraînés sur des corpus de données exogènes puis ajustés en utilisant des réseaux de neurones profonds sur un corpus d’émissions françaises pour notre tâche de classification. Les expériences réalisées sur le corpus de données REPERE ont mis en évidence les gains d’une fusion au niveau des espaces de représentations par rapport aux méthodes de fusion tardive standard.
%U https://aclanthology.org/2016.jeptalnrecital-jep.41
%P 364-372
Markdown (Informal)
[Fusion d’espaces de représentations multimodaux pour la reconnaissance du rôle du locuteur dans des documents télévisuels (Multimodal embedding fusion for robust speaker role recognition in video broadcast )](https://aclanthology.org/2016.jeptalnrecital-jep.41) (Delecraz et al., JEP/TALN/RECITAL 2016)
ACL