Julien Aubert-Béduchaud


2025

pdf bib
ACL-rlg: A Dataset for Reading List Generation
Julien Aubert-Béduchaud | Florian Boudin | Béatrice Daille | Richard Dufour
Proceedings of the 31st International Conference on Computational Linguistics

Familiarizing oneself with a new scientific field and its existing literature can be daunting due to the large amount of available articles. Curated lists of academic references, or reading lists, compiled by experts, offer a structured way to gain a comprehensive overview of a domain or a specific scientific challenge. In this work, we introduce ACL-rlg, the largest open expert-annotated reading list dataset. We also provide multiple baselines for evaluating reading list generation and formally define it as a retrieval task. Our qualitative study highlights that traditional scholarly search engines and indexing methods perform poorly on this task, and GPT-4o, despite showing better results, exhibits signs of potential data contamination.

pdf bib
ACL-rlg : Un dataset pour la génération de listes de lecture
Julien Aubert-Béduchaud | Florian Boudin | Béatrice Daille | Richard Dufour
Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : traductions d'articles publiés

Se familiariser avec un nouveau domaine scientifique et sa littérature associée peut s’avérer complexe en raison du nombre considérable d’articles disponibles. Les listes de références académiques compilées par des experts, également appelées listes de lecture, offrent un moyen structuré et efficace d’acquérir une vue d’ensemble approfondie d’un domaine scientifique. Dans cet article, nous présentonsACL-rlg , le plus grand ensemble de données ouvertes rassemblant des listes de lecture annotées par des experts. Nous proposons également plusieurs bases de référence pour évaluer la génération de listes de lecture, que nous formalisons comme une tâche de récupération d’information. Notre étude qualitative met en évidence les performances limitées des moteurs de recherche académiques traditionnels et des méthodes d’indexation dans ce contexte, tandis que GPT-4o, bien que produisant de meilleurs résultats, présente des signes potentiels de contamination des données.

2024

pdf bib
État de l’art des méthodes de génération automatique de listes de lectures
Julien Aubert-Béduchaud
Actes de la 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues

L’augmentation croissante du volume d’articles scientifique rend difficile la montée en compétence des chercheurs sur un domaine de recherche ciblé. Pour faciliter l’accès à ces articles, diverses approches et tâches en recherche d’information ont été développées ces dernières années. Parmi elles, la tâche de génération automatique de listes de lecture a été récemment étudiée dans la littérature.Elle consiste en la génération d’une liste ordonnée d’articles scientifiques couvrant un domaine de recherche spécifique. Plusieurs travaux ont exploré différents aspects de cette tâche, proposant des jeux de données et des méthodologies d’évaluation variées pour apporter des solutions à ce problème.Dans cet article, nous présentons un état de l’art des principales approches de génération de listes de lecture, incluant les données, méthodes, et métriques d’évaluation