@inproceedings{lerner-etal-2023-recherche,
title = "Recherche cross-modale pour r{\'e}pondre {\`a} des questions visuelles",
author = "Lerner, Paul and
Olivier, Ferret and
Guinaudeau, Camille",
editor = {Zargayouna, Ha{\"\i}fa},
booktitle = "Actes de CORIA-TALN 2023. Actes de la 18e Conf{\'e}rence en Recherche d'Information et Applications (CORIA)",
month = "6",
year = "2023",
address = "Paris, France",
publisher = "ATALA",
url = "https://aclanthology.org/2023.jeptalnrecital-coria.5",
pages = "74--92",
abstract = "R{\'e}pondre {\`a} des questions visuelles {\`a} propos d{'}entit{\'e}s nomm{\'e}es (KVQAE) est une t{\^a}che difficile qui demande de rechercher des informations dans une base de connaissances multimodale. Nous {\'e}tudions ici comment traiter cette t{\^a}che avec une recherche cross-modale et sa combinaison avec une recherche mono-modale, en se focalisant sur le mod{\`e}le CLIP, un mod{\`e}le multimodal entra{\^\i}n{\'e} sur des images appareill{\'e}es {\`a} leur l{\'e}gende textuelle. Nos r{\'e}sultats d{\'e}montrent la sup{\'e}riorit{\'e} de la recherche cross-modale, mais aussi la compl{\'e}mentarit{\'e} des deux, qui peuvent {\^e}tre combin{\'e}es facilement. Nous {\'e}tudions {\'e}galement diff{\'e}rentes mani{\`e}res d{'}ajuster CLIP et trouvons que l{'}optimisation cross-modale est la meilleure solution, {\'e}tant en ad{\'e}quation avec son pr{\'e}-entra{\^\i}nement. Notre m{\'e}thode surpasse les approches pr{\'e}c{\'e}dentes, tout en {\'e}tant plus simple et moins co{\^u}teuse. Ces gains de performance sont {\'e}tudi{\'e}s intrins{\`e}quement selon la pertinence des r{\'e}sultats de la recherche et extrins{\`e}quement selon l{'}exactitude de la r{\'e}ponse extraite par un module externe. Nous discutons des diff{\'e}rences entre ces m{\'e}triques et de ses implications pour l{'}{\'e}valuation de la KVQAE.",
language = "French",
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="lerner-etal-2023-recherche">
<titleInfo>
<title>Recherche cross-modale pour répondre à des questions visuelles</title>
</titleInfo>
<name type="personal">
<namePart type="given">Paul</namePart>
<namePart type="family">Lerner</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Ferret</namePart>
<namePart type="family">Olivier</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Camille</namePart>
<namePart type="family">Guinaudeau</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2023-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">French</languageTerm>
<languageTerm type="code" authority="iso639-2b">fre</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de CORIA-TALN 2023. Actes de la 18e Conférence en Recherche d’Information et Applications (CORIA)</title>
</titleInfo>
<name type="personal">
<namePart type="given">Haïfa</namePart>
<namePart type="family">Zargayouna</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA</publisher>
<place>
<placeTerm type="text">Paris, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Répondre à des questions visuelles à propos d’entités nommées (KVQAE) est une tâche difficile qui demande de rechercher des informations dans une base de connaissances multimodale. Nous étudions ici comment traiter cette tâche avec une recherche cross-modale et sa combinaison avec une recherche mono-modale, en se focalisant sur le modèle CLIP, un modèle multimodal entraîné sur des images appareillées à leur légende textuelle. Nos résultats démontrent la supériorité de la recherche cross-modale, mais aussi la complémentarité des deux, qui peuvent être combinées facilement. Nous étudions également différentes manières d’ajuster CLIP et trouvons que l’optimisation cross-modale est la meilleure solution, étant en adéquation avec son pré-entraînement. Notre méthode surpasse les approches précédentes, tout en étant plus simple et moins coûteuse. Ces gains de performance sont étudiés intrinsèquement selon la pertinence des résultats de la recherche et extrinsèquement selon l’exactitude de la réponse extraite par un module externe. Nous discutons des différences entre ces métriques et de ses implications pour l’évaluation de la KVQAE.</abstract>
<identifier type="citekey">lerner-etal-2023-recherche</identifier>
<location>
<url>https://aclanthology.org/2023.jeptalnrecital-coria.5</url>
</location>
<part>
<date>2023-6</date>
<extent unit="page">
<start>74</start>
<end>92</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Recherche cross-modale pour répondre à des questions visuelles
%A Lerner, Paul
%A Olivier, Ferret
%A Guinaudeau, Camille
%Y Zargayouna, Haïfa
%S Actes de CORIA-TALN 2023. Actes de la 18e Conférence en Recherche d’Information et Applications (CORIA)
%D 2023
%8 June
%I ATALA
%C Paris, France
%G French
%F lerner-etal-2023-recherche
%X Répondre à des questions visuelles à propos d’entités nommées (KVQAE) est une tâche difficile qui demande de rechercher des informations dans une base de connaissances multimodale. Nous étudions ici comment traiter cette tâche avec une recherche cross-modale et sa combinaison avec une recherche mono-modale, en se focalisant sur le modèle CLIP, un modèle multimodal entraîné sur des images appareillées à leur légende textuelle. Nos résultats démontrent la supériorité de la recherche cross-modale, mais aussi la complémentarité des deux, qui peuvent être combinées facilement. Nous étudions également différentes manières d’ajuster CLIP et trouvons que l’optimisation cross-modale est la meilleure solution, étant en adéquation avec son pré-entraînement. Notre méthode surpasse les approches précédentes, tout en étant plus simple et moins coûteuse. Ces gains de performance sont étudiés intrinsèquement selon la pertinence des résultats de la recherche et extrinsèquement selon l’exactitude de la réponse extraite par un module externe. Nous discutons des différences entre ces métriques et de ses implications pour l’évaluation de la KVQAE.
%U https://aclanthology.org/2023.jeptalnrecital-coria.5
%P 74-92
Markdown (Informal)
[Recherche cross-modale pour répondre à des questions visuelles](https://aclanthology.org/2023.jeptalnrecital-coria.5) (Lerner et al., JEP/TALN/RECITAL 2023)
ACL