Mokhtar Boumedyen Billami

Also published as: Mokhtar Boumedyen Billami

2025

pdf bib abs
Faut-il éliminer toutes les hallucinations dans un résumé abstractif pour le domaine juridique ?
Nihed Bendahman | Karen Pinel-Sauvagnat | Gilles Hubert | Mokhtar Boumedyen Billami
Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : traductions d'articles publiés

La génération automatique de résumés dans le domaine juridique requiert une compréhension approfondie des spécificités du domaine, notamment en ce qui concerne le vocabulaire employé par les experts. En effet, ces derniers s’appuient largement sur leurs connaissances externes lors de la rédaction des résumés, afin de contextualiser les principales entités juridiques (lois) du document. Cela conduit à des résumés de référence contenant de nombreuses abstractions, que les modèles de l’état de l’art peinent à reproduire. Dans cet article, nous proposons une approche de génération de résumé basée sur les entités, visant à apprendre au modèle à générer des hallucinations factuelles, aussi proches que possible des abstractions présentes dans les résumés de référence. Nous évaluons notre approche sur deux corpus juridiques différents, contenant des documents en anglais et en français. Les résultats montrent que notre approche permet de réduire les hallucinations non factuelles tout en maximisant la couverture des résumés et les hallucinations factuelles. De plus, la qualité globale des résumés est également améliorée, démontrant ainsi la pertinence de la génération de résumé guidée par les entités dans le domaine juridique.

pdf bib abs
Not all Hallucinations are Good to Throw Away When it Comes to Legal Abstractive Summarization
Nihed Bendahman | Karen Pinel-Sauvagnat | Gilles Hubert | Mokhtar Boumedyen Billami
Proceedings of the 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers)

Automatic summarization of legal documents requires a thorough understanding of their specificities, mainly with respect to the vocabulary used by legal experts. Indeed, the latter rely heavily on their external knowledge when writing summaries, in order to contextualize the main entities of the source document. This leads to reference summaries containing many abstractions, that sota models struggle to generate. In this paper, we propose an entity-driven approach aiming at learning the model to generate factual hallucinations, as close as possible to the abstractions of the reference summaries. We evaluated our approach on two different datasets, with legal documents in English and French. Results show that our approach allows to reduce non-factual hallucinations and maximize both summary coverage and factual hallucinations at entity-level. Moreover, the overall quality of summaries is also improved, showing that guiding summarization with entities is a valuable solution for legal documents summarization.

2023

pdf bib abs
Quelles évolutions sur cette loi ? Entre abstraction et hallucination dans le domaine du résumé de textes juridiques
Nihed Bendahman | Karen Pinel-Sauvagnat | Gilles Hubert | Mokhtar Boumedyen Billami
Actes de CORIA-TALN 2023. Actes de la 18e Conférence en Recherche d'Information et Applications (CORIA)

Résumer automatiquement des textes juridiques permettrait aux chargés de veille d’éviter une surcharge informationnelle et de gagner du temps sur une activité particulièrement chronophage. Dans cet article, nous présentons un corpus de textes juridiques en français associés à des résumés de référence produits par des experts, et cherchons à établir quels modèles génératifs de résumé sont les plus intéressants sur ces documents possédant de fortes spécificités métier. Nous étudions quatre modèles de l’état de l’art, que nous commençons à évaluer avec des métriques traditionnelles. Afin de comprendre en détail la capacité des modèles à transcrire les spécificités métiers, nous effectuons une analyse plus fine sur les entités d’intérêt. Nous évaluons notamment la couverture des résumés en termes d’entités, mais aussi l’apparition d’informations non présentes dans les documents d’origine, dites hallucinations. Les premiers résultats montrent que le contrôle des hallucinations est crucial dans les domaines de spécialité, particulièrement le juridique.

2022

pdf bib abs
BL.Research at SemEval-2022 Task 1: Deep networks for Reverse Dictionary using embeddings and LSTM autoencoders
Nihed Bendahman | Julien Breton | Lina Nicolaieff | Mokhtar Boumedyen Billami | Christophe Bortolaso | Youssef Miloudi
Proceedings of the 16th International Workshop on Semantic Evaluation (SemEval-2022)

This paper describes our two deep learning systems that competed at SemEval-2022 Task 1 “CODWOE: Comparing Dictionaries and WOrd Embeddings”. We participated in the subtask for the reverse dictionary which consists in generating vectors from glosses. We use sequential models that integrate several neural networks, starting from Embeddings networks until the use of Dense networks, Bidirectional Long Short-Term Memory (BiLSTM) networks and LSTM networks. All glosses have been preprocessed in order to consider the best representation form of the meanings for all words that appears. We achieved very competitive results in reverse dictionary with a second position in English and French languages when using contextualized embeddings, and the same position for English, French and Spanish languages when using char embeddings.

pdf bib abs
BL.Research at SemEval-2022 Task 8: Using various Semantic Information to evaluate document-level Semantic Textual Similarity
Sebastien Dufour | Mohamed Mehdi Kandi | Karim Boutamine | Camille Gosse | Mokhtar Boumedyen Billami | Christophe Bortolaso | Youssef Miloudi
Proceedings of the 16th International Workshop on Semantic Evaluation (SemEval-2022)

This paper presents our system for document-level semantic textual similarity (STS) evaluation at SemEval-2022 Task 8: “Multilingual News Article Similarity”. The semantic information used is obtained by using different semantic models ranging from the extraction of key terms and named entities to the document classification and obtaining similarity from automatic summarization of documents. All these semantic information’s are then used as features to feed a supervised system in order to evaluate the degree of similarity of a pair of documents. We obtained a Pearson correlation score of 0.706 compared to the best score of 0.818 from teams that participated in this task.

2021

pdf bib abs
Extraction automatique de relations sémantiques d’hyperonymie et d’hyponymie dans un corpus métier (Automatic extraction of hypernym and hyponym relations in a professional corpus)
Camille Gosset | Mokhtar Boumedyen Billami | Mathieu Lafourcade | Christophe Bortolaso | Mustapha Derras
Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale

Nous nous intéressons dans cet article à l’extraction automatique de relations sémantiques d’hyperonymie et d’hyponymie à partir d’un corpus de spécialités métier. Le corpus regroupe des ouvrages et articles en français d’expertise juridique et a été partiellement annoté en termes-clés par des experts. Nous prétraitons ces annotations afin de pouvoir les retrouver dans ce corpus et obtenir un concept général pour extraire les relations entre ces termes. Nous décrivons une étude expérimentale qui compare plusieurs méthodes de classification appliquées sur des vecteurs de relations construits à partir d’un modèle Word2Vec. Nous comparons les résultats obtenus grâce à un jeu de données construit à partir de relations d’hyperonymie tirées d’un réseau lexico-sémantique français que nous inversons pour obtenir les relations d’hyponymie. Nos résultats montrent que nous obtenons une classification pouvant atteindre un taux d’exactitude de 92 %.

pdf bib abs
Participation de Berger-Levrault (BL.Research) à DEFT 2021 : de l’apprentissage des seuils de validation à la classification multi-labels de documents (Berger-Levrault (BL)
Mokhtar Boumedyen Billami | Lina Nicolaieff | Camille Gosset | Christophe Bortolaso
Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Atelier DÉfi Fouille de Textes (DEFT)

Cet article présente notre participation à l’édition 2021 du DÉfi Fouille de Textes (DEFT) et plus précisément à la première tâche liée à l’identification du profil clinique du patient. Cette tâche consiste à sélectionner, pour un document décrivant l’état d’un patient, les différents types de maladies rencontrées correspondant aux entrées génériques des chapitres du MeSH (Medical Subject Headings). Dans notre travail, nous nous sommes intéressés aux questions suivantes : (1) Comment améliorer les représentations vectorielles de documents, voire de classes ? (2) Comment apprendre des seuils de validation de classes ? Et (3) Une approche combinant apprentissage supervisé et similarité sémantique peut-elle apporter une meilleure performance à un système de classification multi-labels ?

2020

pdf bib abs
Extraction de thèmes d’un corpus de demandes de support pour un logiciel de relation citoyen (Topic extraction from a corpus of support requests for citizen relations software)
Mokhtar Boumedyen Billami | Christophe Bortolaso | Mustapha Derras
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles

Nous nous intéressons dans cet article à l’extraction de thèmes (topics) à partir de commentaires textuels provenant des demandes de support de l’éditeur de logiciel Berger-Levrault. Le corpus de demandes analysé est celui d’un outil de gestion de la relation citoyen. Ce corpus n’est pas formaté et est peu structuré avec plusieurs locuteurs qui interviennent (le citoyen et un ou plusieurs techniciens support). Nous décrivons une étude expérimentale qui repose sur l’utilisation de deux systèmes. Le premier système applique une LDA (Allocation Dirichlet Latente), tandis que le second combine l’application d’une LDA avec l’algorithme k-Moyennes (k-Means). Nous comparons nos résultats avec un échantillon de ce corpus, annoté par un expert du domaine. Nos résultats montrent que nous obtenons une classification de meilleure qualité comparable avec celle effectuée manuellement par un expert en utilisant une combinaison LDA/k-Moyennes.

2015

pdf bib abs
Désambiguïsation lexicale à base de connaissances par sélection distributionnelle et traits sémantiques
Mokhtar Boumedyen Billami
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues

La désambiguïsation lexicale permet d’améliorer de nombreuses applications en traitement automatique des langues (TAL) comme la recherche d’information, l’extraction d’information, la traduction automatique, ou la simplification lexicale de textes. Schématiquement, il s’agit de choisir quel est le sens le plus approprié pour chaque mot d’un texte. Une des approches classiques consiste à estimer la similarité sémantique qui existe entre les sens de deux mots puis de l’étendre à l’ensemble des mots du texte. La méthode la plus directe donne un score de similarité à toutes les paires de sens de mots puis choisit la chaîne de sens qui retourne le meilleur score (on imagine la complexité exponentielle liée à cette approche exhaustive). Dans cet article, nous proposons d’utiliser une méta-heuristique d’optimisation combinatoire qui consiste à choisir les voisins les plus proches par sélection distributionnelle autour du mot à désambiguïser. Le test et l’évaluation de notre méthode portent sur un corpus écrit en langue française en se servant du réseau sémantique BabelNet. Le taux d’exactitude obtenu est de 78% sur l’ensemble des noms et des verbes choisis pour l’évaluation.

Co-authors

Mohamed Mehdi Kandi 1

Venues

Fix author