Le rôle du contexte dans la classification séquentielle de phrases pour les documents longs

Anas Belfathi; Nicolas Hernandez; Laura Monceaux; Richard Dufour

Le rôle du contexte dans la classification séquentielle de phrases pour les documents longs

Anas Belfathi, Nicolas Hernandez, Laura Monceaux, Richard Dufour

Abstract

La classification séquentielle de phrases étend la classification traditionnelle en intégrant un contexte plus large. Cependant, les approches de pointe rencontrent deux défis majeurs dans le traitement automatique des documents longs : les modèles de langue préentraînés sont limités par des contraintes de longueur d’entrée, tandis que les modèles hiérarchiques proposés introduisent souvent du contenu non pertinent. Nous proposons une approche de recherche d’information au niveau du document visant à extraire uniquement le contexte le plus pertinent. Nous introduisons deux types d’heuristiques : Séquentiel , qui capture l’information locale, et Sélectif, qui sélectionne les phrases les plus sémantiquement similaires. Nos expériences sur trois corpus juridiques en anglais montrent que ces heuristiques améliorent les performances. Les heuristiques séquentielles surpassent les modèles hiérarchiques sur deux des trois jeux de données. démontrant l’apport du contexte ciblé.

Anthology ID:: 2025.jeptalnrecital-taln.30
Volume:: Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux
Month:: 6
Year:: 2025
Address:: Marseille, France
Editors:: Frédéric Bechet, Adrian-Gabriel Chifu, Karen Pinel-sauvagnat, Benoit Favre, Eliot Maes, Diana Nurbakova
Venue:: JEP/TALN/RECITAL
SIG:
Publisher:: ATALA \\& ARIA
Note:
Pages:: 488–501
Language:: French
URL:: https://aclanthology.org/2025.jeptalnrecital-taln.30/
DOI:
Bibkey:
Cite (ACL):: Anas Belfathi, Nicolas Hernandez, Laura Monceaux, and Richard Dufour. 2025. Le rôle du contexte dans la classification séquentielle de phrases pour les documents longs. In Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux, pages 488–501, Marseille, France. ATALA \\& ARIA.
Cite (Informal):: Le rôle du contexte dans la classification séquentielle de phrases pour les documents longs (Belfathi et al., JEP/TALN/RECITAL 2025)
Copy Citation:
PDF:: https://aclanthology.org/2025.jeptalnrecital-taln.30.pdf

PDF Cite Search Fix data