Aurélien Bossard - ACL Anthology

Aurélien Bossard

2025

Étude critique du corpus CNN/DailyMail pour le résumé automatique
Fanny Bachey | Christophe Rodrigues | Aurélien Bossard
Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux

De nombreux modèles de génération et d’évaluation sont entraînés sur des corpus sans qu’il ait été démontré qu’ils étaient appropriés pour cette tâche. C’est pourquoi nous proposons l’étude critique des données de l’un des corpus les plus utilisés dans le domaine du résumé automatique : CNN/DailyMail. Nous montrons, par une analyse théorique, puis en comparant les résumés de référence du corpus et à des résumés écrits par des humains, que les résumés de référence de CNN/DailyMail ne correspondent pas à ce que doit être un résumé, et que le corpus n’est donc pas adapté à la tâche de résumé automatique.

2022

SummVD : An efficient approach for unsupervised topic-based text summarization
Gabriel Shenouda | Aurélien Bossard | Oussama Ayoub | Christophe Rodrigues
Proceedings of the 2nd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 12th International Joint Conference on Natural Language Processing (Volume 1: Long Papers)

This paper introduces a new method, SummVD, for automatic unsupervised extractive summarization. This method is based on singular value decomposition, a linear method in the number of words, in order to reduce the dimensionality of word embeddings and propose a representation of words on a small number of dimensions, each representing a hidden topic. It also uses word clustering to reduce the vocabulary size. This representation, specific to one document, reduces the noise brought by several dimensions of the embeddings that are useless in a restricted context. It is followed by a linear sentence extraction heuristic. This makes SummVD an efficient method for text summarization. We evaluate SummVD using several corpora of different nature (news, scientific articles, social network). Our method outperforms in effectiveness recent extractive approaches. Moreover, SummVD requires low resources, in terms of data and computing power. So it can be run on long single documents such as scientific papers as much as large multi-document corpora and is fast enough to be used in live summarization systems.

RésumeSVD : Un outil efficace et performant pour le résumé de texte non supervisé (RésumeSVD : An efficient and effective tool for unsupervised text summarization )
Gabriel Shenouda | Christophe Rodrigues | Aurélien Bossard
Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale

Cet article présente une nouvelle méthode, RésumeSVD, pour le résumé automatique extractif non supervisé. Cette méthode est fondée sur la décomposition en valeurs singulières afin de réduire la dimensionnalité des plongements de mots et de proposer une représentation de ces derniers sur un petit nombre de dimensions, chacune représentant un sujet latent. En effet, dans un contexte spécifique et restreint, de multiples dimensions des plongements de mots deviennent moins pertinentes puisqu’apprises dans des contextes plus larges. Elle utilise également le regroupement automatique de mots pour réduire la taille du vocabulaire, et est suivie d’une heuristique d’extraction de phrases. La méthode surpasse en efficacité les approches extractives les plus récentes tout en étant plus efficiente. De plus, RésumeSVD nécessite peu de ressources, en termes de données et de puissance de calcul. Elle peut donc être exécutée sur de longs documents, tels que des articles scientifiques, ainsi que sur de grands corpus à documents multiples. Notre méthode est suffisamment rapide pour être utilisée dans des systèmes de résumé en direct. Nous partageons publiquement le code source de notre approche permettant de reproduire tous nos résultats.

2021

Neural Network-Based Generation of Sport Summaries: A Preliminary Study
David Stéphane Belemkoabga | Aurélien Bossard | Abdallah Essa | Christophe Rodrigues | Kévin Sylla
Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP 2021)

This paper presents a global summarization method for live sport commentaries for which we have a human-written summary available. This method is based on a neural generative summarizer. The amount of data available for training is limited compared to corpora commonly used by neural summarizers. We propose to help the summarizer to learn from a limited amount of data by limiting the entropy of the input texts. This step is performed by a classification into categories derived by a detailed analysis of the human-written summaries. We show that the filtering helps the summarization system to overcome the lack of resources. However, several improving points have emerged from this preliminary study, that we discuss and plan to implement in future work.

2020

Étude sur le résumé comparatif grâce aux plongements de mots (Comparative summarization study using word embeddings)
Valentin Nyzam | Aurélien Bossard
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles

Dans cet article, nous présentons une nouvelle méthode de résumé automatique comparatif. Ce type de résumé a pour objectif de permettre de saisir rapidement les différences d’information entre deux jeux de documents. En raison de l’absence de ressources disponibles pour cette tâche, nous avons composé un corpus d’évaluation. Nous présentons à la fois la méthodologie de son élaboration ainsi que le corpus lui-même. Notre méthode utilise les avancées récentes dans le calcul de similarité entre phrases afin de détecter les informations comparatives. Nous montrons que sur ce corpus, notre méthode est comparable en termes de qualité de résultats à une méthode de l’état de l’art, tout en réduisant d’un facteur dix le temps de calcul, la rendant donc exploitable dans le cadre de l’aide à l’analyse de documents.

2019

A Modular Tool for Automatic Summarization
Valentin Nyzam | Aurélien Bossard
Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics: System Demonstrations

This paper introduces the first fine-grained modular tool for automatic summarization. Open source and written in Java, it is designed to be as straightforward as possible for end-users. Its modular architecture is meant to ease its maintenance and the development and integration of new modules. We hope that it will ease the work of researchers in automatic summarization by providing a reliable baseline for future works as well as an easy way to evaluate methods on different corpora.

2018

MOTS : un outil modulaire pour le résumé automatique (MOTS : A Modular Framework for Automatic Summarization )
Valentin Nyzam | Christophe Rodrigues | Aurélien Bossard
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN

Cet article présente un système open source et modulaire pour le résumé automatique : MOTS, développé en Java. Son architecture permet d’implémenter et tester de nouvelles méthodes de résumé automatique et de les comparer avec des méthodes existantes dans un cadre unifié. Ce système, le premier complètement modulaire pour le résumé automatique permet à l’heure actuelle de définir plus de cent combinaisons de modules afin de résumer automatiquement des textes en langage naturel.

2017

Un outil modulaire libre pour le résumé automatique (A Modular Open Source Tool for Automatic Summarization)
Valentin Nyzam | Aurélien Bossard
Actes des 24ème Conférence sur le Traitement Automatique des Langues Naturelles. Volume 3 - Démonstrations

automatique Valentin Nyzam Aurélien Bossard LIASD, Université Paris 8 - IUT de Montreuil, 140 rue de la Nouvelle France, 93100 Montreuil, France valentin.nyzam@iut.univ-paris8.fr, aurelien.bossard@iut.univ-paris8.fr R ÉSUMÉ Nous proposons une démonstration d’un outil modulaire et évolutif de résumé automatique qui implémente trois méthodes d’extraction de phrases de l’état de l’art ainsi que sept méthodes d’évaluation des phrases. L’outil est développé en Java et est d’ores-et-déjà disponible sur la plateforme Github.

Résumer automatiquement en ligne : démonstration d’un service web de résumé multidocument (Summarizing Automatically Online : We propose a demonstration of an automatic multidocument summarization web service)
Valentin Nyzam | Nathan Gatto | Aurélien Bossard
Actes des 24ème Conférence sur le Traitement Automatique des Langues Naturelles. Volume 3 - Démonstrations

r automatiquement en ligne : démonstration d’un service web de résumé multidocument Valentin Nyzam Nathan Gatto Aurélien Bossard LIASD, Université Paris 8 - IUT de Montreuil, 140 rue de la Nouvelle France, 93100 Montreuil, France valentin.nyzam@iut.univ-paris8.fr, nathan.gatto@free.fr, aurelien.bossard@iut.univ-paris8.fr R ÉSUMÉ Nous proposons une démonstration d’un webservice de résumé automatique multidocument. Ce webservice s’appuie sur un outil ouvert qui implémente plusieurs algorithmes reconnus de résumé automatique, et permet de résumer des documents en utilisant des configurations différentes.

An Evolutionary Algorithm for Automatic Summarization
Aurélien Bossard | Christophe Rodrigues
Proceedings of the International Conference Recent Advances in Natural Language Processing, RANLP 2017

This paper proposes a novel method to select sentences for automatic summarization based on an evolutionary algorithm. The algorithm explores candidate summaries space following an objective function computed over ngrams probability distributions of the candidate summary and the source documents. This method does not consider a summary as a stack of independent sentences but as a whole text, and makes use of advances in unsupervised summarization evaluation. We compare this sentence extraction method to one of the best existing methods which is based on integer linear programming, and show its efficiency on three different acknowledged corpora.

2015

ROBO, an edit distance for sentence comparison Application to automatic summarization
Aurélien Bossard | Christophe Rodrigues
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Dans cet article, nous proposons une mesure de distance entre phrases fondée sur la distance de Levenshtein, doublement pondérée par la fréquence des mots et par le type d’opération réalisée. Nous l’évaluons au sein d’un système de résumé automatique dont la méthode de calcul est volontairement limitée à une approche fondée sur la similarité entre phrases. Nous sommes donc ainsi en mesure d’évaluer indirectement la performance de cette nouvelle mesure de distance.

Une Approche évolutionnaire pour le résumé automatique
Aurélien Bossard | Christophe Rodrigues
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Dans cet article, nous proposons une méthode de résumé automatique fondée sur l’utilisation d’un algorithme génétique pour parcourir l’espace des résumés candidats couplé à un calcul de divergence de distribution de probabilités de n-grammes entre résumés candidats et documents source. Cette méthode permet de considérer un résumé non plus comme une accumulation de phrases indépendantes les unes des autres, mais comme un texte vu dans sa globalité. Nous la comparons à une des meilleures méthodes existantes fondée sur la programmation linéaire en nombre entier, et montrons son efficacité sur le corpus TAC 2009.

2011

Ordonner un résumé automatique multi-documents fondé sur une classification des phrases en classes lexicales (Ordering a multi-document summary based on sentences subtopic clustering)
Aurélien Bossard | Émilie Guimier De Neef
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Nous présentons différentes méthodes de réordonnancement de phrases pour le résumé automatique fondé sur une classification des phrases à résumer en classes thématiques. Nous comparons ces méthodes à deux baselines : ordonnancement des phrases selon leur pertinence et ordonnancement selon la date et la position dans le document d’origine. Nous avons fait évaluer les résumés obtenus sur le corpus RPM2 par 4 annotateurs et présentons les résultats.

2010

Résumé automatique de textes d’opinion [Automatic Summarization of Opinionated Texts]
Aurélien Bossard | Michel Genereux | Thierry Poibeau
Traitement Automatique des Langues, Volume 51, Numéro 3 : Opinions, sentiments et jugements d’évaluation [Opinions, sentiment and evaluative language]

2009

Résumé automatique de textes d’opinions
Michel Généreux | Aurélien Bossard
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Le traitement des langues fait face à une demande croissante en matière d’analyse de textes véhiculant des critiques ou des opinions. Nous présentons ici un système de résumé automatique tourné vers l’analyse d’articles postés sur des blogues, où sont exprimées à la fois des informations factuelles et des prises de position sur les faits considérés. Nous montrons qu’une approche classique à base de traits de surface est tout à fait efficace dans ce cadre. Le système est évalué à travers une participation à la campagne d’évaluation internationale TAC (Text Analysis Conference) où notre système a réalisé des performances satisfaisantes.

Une approche mixte-statistique et structurelle - pour le résumé automatique de dépêches
Aurélien Bossard
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Les techniques de résumé automatique multi-documents par extraction ont récemment évolué vers des méthodes statistiques pour la sélection des phrases à extraire. Dans cet article, nous présentons un système conforme à l’« état de l’art » — CBSEAS — que nous avons développé pour les tâches Opinion (résumés d’opinions issues de blogs) et Update (résumés de dépêches et mise à jour du résumé à partir de nouvelles dépêches sur le même événement) de la campagne d’évaluation TAC 2008, et montrons l’intérêt d’analyses structurelles et linguistiques des documents à résumer. Nous présentons également notre étude sur la structure des dépêches et l’impact de son intégration à CBSEAS.

Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues
Thibault Mondary | Aurélien Bossard | Thierry Hamon
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues

CBSEAS, a Summarization System – Integration of Opinion Mining Techniques to Summarize Blogs
Aurélien Bossard | Michel Généreux | Thierry Poibeau
Proceedings of the Demonstrations Session at EACL 2009

Integrating Document Structure into a Multi-Document Summarizer
Aurélien Bossard | Thierry Poibeau
Proceedings of the International Conference RANLP-2009

2008

Regroupement automatique de documents en classes événementielles
Aurélien Bossard | Thierry Poibeau
Actes de la 15ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Cet article porte sur le regroupement automatique de documents sur une base événementielle. Après avoir précisé la notion d’événement, nous nous intéressons à la représentation des documents d’un corpus de dépêches, puis à une approche d’apprentissage pour réaliser les regroupements de manière non supervisée fondée sur k-means. Enfin, nous évaluons le système de regroupement de documents sur un corpus de taille réduite et nous discutons de l’évaluation quantitative de ce type de tâche.

2007

Vers une ressource prédicative pour l’extraction d’information
Aurélien Bossard
Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (Posters)

Cet article présente une méthode pour construire, à partir d’une ressource lexicale prédicative existante, une ressource enrichie pouvant servir à une tâche d’extraction. Nous montrons les points forts et les lacunes de deux ressources existantes pour le Français : les Tables du LADL et Volem. Après avoir montré pourquoi nous avons sélectionné Volem, nous listons les données nécessaires à la tâche d’extraction d’information. Nous présentons le processus d’enrichissement de la ressource initiale et une évaluation, à travers une tâche d’extraction d’information concernant des textes de rachats d’entreprise.

Co-authors

Oussama Ayoub 1

David Stéphane Belemkoabga 1

Abdallah Essa 1

Émilie Guimier De Neef 1

Thierry Hamon 1

Thibault Mondary 1

Venues