@inproceedings{boualili-etal-2023-highlighting,
title = "Highlighting exact matching via marking strategies for ad hoc document ranking with pretrained contextualized language models",
author = "Boualili, Lila and
Moreno, Jose and
Boughanem, Mohand",
editor = {Zargayouna, Ha{\"i}fa},
booktitle = "Actes de CORIA-TALN 2023. Actes de la 18e Conf{\'e}rence en Recherche d`Information et Applications (CORIA)",
month = "6",
year = "2023",
address = "Paris, France",
publisher = "ATALA",
url = "https://aclanthology.org/2023.jeptalnrecital-coria.14/",
pages = "201--201",
abstract = "Les mod{\`e}les de langue pr{\'e}-entra{\^i}n{\'e}s (MLPs) {\`a} l`instar de BERT se sont r{\'e}v{\'e}l{\'e}s remarquablement efficaces pour le classement ad hoc. Contrairement aux mod{\`e}les ant{\'e}rieurs {\`a} BERT qui n{\'e}cessitent des composants neuronaux sp{\'e}cialis{\'e}s pour capturer les diff{\'e}rents aspects de la pertinence entre la requ{\^e}te et le document, les MLPs sont uniquement bas{\'e}s sur des blocs de {\textquotedblleft}transformers{\textquotedblright} o{\`u} l`attention est le seul m{\'e}canisme utilis{\'e} pour extraire des signaux {\`a} partir des interactions entre les termes de la requ{\^e}te et le document. Gr{\^a}ce {\`a} l`attention crois{\'e}e du {\textquotedblleft}transformer{\textquotedblright}, BERT s`est av{\'e}r{\'e} {\^e}tre un mod{\`e}le d`appariement s{\'e}mantique efficace. Cependant, l`appariement exact reste un signal essentiel pour {\'e}valuer la pertinence d`un document par rapport {\`a} une requ{\^e}te de recherche d`informations, en dehors de l`appariement s{\'e}mantique. Dans cet article, nous partons de l`hypoth{\`e}se que BERT pourrait b{\'e}n{\'e}ficier d`indices explicites d`appariement exact pour mieux s`adapter {\`a} la t{\^a}che d`estimation de pertinence. Dans ce travail, nous explorons des strat{\'e}gies d`int{\'e}gration des signaux d`appariement exact en utilisant des {\textquotedblleft}tokens{\textquotedblright} de marquage permettant de mettre en {\'e}vidence les correspondances exactes entre les termes de la requ{\^e}te et ceux du document. Nous constatons que cette approche de marquage simple am{\'e}liore de mani{\`e}re significative le mod{\`e}le BERT vanille de r{\'e}f{\'e}rence. Nous d{\'e}montrons empiriquement l`efficacit{\'e} de notre approche par le biais d`exp{\'e}riences exhaustives sur trois collections standards en recherche d`information (RI). Les r{\'e}sultats montrent que les indices explicites de correspondance exacte transmis par le marquage sont b{\'e}n{\'e}fiques pour des MLPs aussi bien BERT que pour ELECTRA. Nos r{\'e}sultats confirment que les indices traditionnels de RI, tels que la correspondance exacte de termes, sont toujours utiles pour les nouveaux mod{\`e}les contextualis{\'e}s pr{\'e}-entra{\^i}n{\'e}s tels que BERT."
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="boualili-etal-2023-highlighting">
<titleInfo>
<title>Highlighting exact matching via marking strategies for ad hoc document ranking with pretrained contextualized language models</title>
</titleInfo>
<name type="personal">
<namePart type="given">Lila</namePart>
<namePart type="family">Boualili</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Jose</namePart>
<namePart type="family">Moreno</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Mohand</namePart>
<namePart type="family">Boughanem</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2023-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<relatedItem type="host">
<titleInfo>
<title>Actes de CORIA-TALN 2023. Actes de la 18e Conférence en Recherche d‘Information et Applications (CORIA)</title>
</titleInfo>
<name type="personal">
<namePart type="given">Haïfa</namePart>
<namePart type="family">Zargayouna</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA</publisher>
<place>
<placeTerm type="text">Paris, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Les modèles de langue pré-entraînés (MLPs) à l‘instar de BERT se sont révélés remarquablement efficaces pour le classement ad hoc. Contrairement aux modèles antérieurs à BERT qui nécessitent des composants neuronaux spécialisés pour capturer les différents aspects de la pertinence entre la requête et le document, les MLPs sont uniquement basés sur des blocs de “transformers” où l‘attention est le seul mécanisme utilisé pour extraire des signaux à partir des interactions entre les termes de la requête et le document. Grâce à l‘attention croisée du “transformer”, BERT s‘est avéré être un modèle d‘appariement sémantique efficace. Cependant, l‘appariement exact reste un signal essentiel pour évaluer la pertinence d‘un document par rapport à une requête de recherche d‘informations, en dehors de l‘appariement sémantique. Dans cet article, nous partons de l‘hypothèse que BERT pourrait bénéficier d‘indices explicites d‘appariement exact pour mieux s‘adapter à la tâche d‘estimation de pertinence. Dans ce travail, nous explorons des stratégies d‘intégration des signaux d‘appariement exact en utilisant des “tokens” de marquage permettant de mettre en évidence les correspondances exactes entre les termes de la requête et ceux du document. Nous constatons que cette approche de marquage simple améliore de manière significative le modèle BERT vanille de référence. Nous démontrons empiriquement l‘efficacité de notre approche par le biais d‘expériences exhaustives sur trois collections standards en recherche d‘information (RI). Les résultats montrent que les indices explicites de correspondance exacte transmis par le marquage sont bénéfiques pour des MLPs aussi bien BERT que pour ELECTRA. Nos résultats confirment que les indices traditionnels de RI, tels que la correspondance exacte de termes, sont toujours utiles pour les nouveaux modèles contextualisés pré-entraînés tels que BERT.</abstract>
<identifier type="citekey">boualili-etal-2023-highlighting</identifier>
<location>
<url>https://aclanthology.org/2023.jeptalnrecital-coria.14/</url>
</location>
<part>
<date>2023-6</date>
<extent unit="page">
<start>201</start>
<end>201</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Highlighting exact matching via marking strategies for ad hoc document ranking with pretrained contextualized language models
%A Boualili, Lila
%A Moreno, Jose
%A Boughanem, Mohand
%Y Zargayouna, Haïfa
%S Actes de CORIA-TALN 2023. Actes de la 18e Conférence en Recherche d‘Information et Applications (CORIA)
%D 2023
%8 June
%I ATALA
%C Paris, France
%F boualili-etal-2023-highlighting
%X Les modèles de langue pré-entraînés (MLPs) à l‘instar de BERT se sont révélés remarquablement efficaces pour le classement ad hoc. Contrairement aux modèles antérieurs à BERT qui nécessitent des composants neuronaux spécialisés pour capturer les différents aspects de la pertinence entre la requête et le document, les MLPs sont uniquement basés sur des blocs de “transformers” où l‘attention est le seul mécanisme utilisé pour extraire des signaux à partir des interactions entre les termes de la requête et le document. Grâce à l‘attention croisée du “transformer”, BERT s‘est avéré être un modèle d‘appariement sémantique efficace. Cependant, l‘appariement exact reste un signal essentiel pour évaluer la pertinence d‘un document par rapport à une requête de recherche d‘informations, en dehors de l‘appariement sémantique. Dans cet article, nous partons de l‘hypothèse que BERT pourrait bénéficier d‘indices explicites d‘appariement exact pour mieux s‘adapter à la tâche d‘estimation de pertinence. Dans ce travail, nous explorons des stratégies d‘intégration des signaux d‘appariement exact en utilisant des “tokens” de marquage permettant de mettre en évidence les correspondances exactes entre les termes de la requête et ceux du document. Nous constatons que cette approche de marquage simple améliore de manière significative le modèle BERT vanille de référence. Nous démontrons empiriquement l‘efficacité de notre approche par le biais d‘expériences exhaustives sur trois collections standards en recherche d‘information (RI). Les résultats montrent que les indices explicites de correspondance exacte transmis par le marquage sont bénéfiques pour des MLPs aussi bien BERT que pour ELECTRA. Nos résultats confirment que les indices traditionnels de RI, tels que la correspondance exacte de termes, sont toujours utiles pour les nouveaux modèles contextualisés pré-entraînés tels que BERT.
%U https://aclanthology.org/2023.jeptalnrecital-coria.14/
%P 201-201
Markdown (Informal)
[Highlighting exact matching via marking strategies for ad hoc document ranking with pretrained contextualized language models](https://aclanthology.org/2023.jeptalnrecital-coria.14/) (Boualili et al., JEP/TALN/RECITAL 2023)
ACL