Motasem Alrahabi


2025

pdf bib
How Well Do Large Language Models Extract Keywords? A Systematic Evaluation on Scientific Corpora
Nacef Ben Mansour | Hamed Rahimi | Motasem Alrahabi
Proceedings of the 1st Workshop on AI and Scientific Discovery: Directions and Opportunities

Automatic keyword extraction from scientific articles is pivotal for organizing scholarly archives, powering semantic search engines, and mapping interdisciplinary research trends. However, existing methods—including statistical and graph-based approaches—struggle to handle domain-specific challenges such as technical terminology, cross-disciplinary ambiguity, and dynamic scientific jargon. This paper presents an empirical comparison of traditional keyword extraction methods (e.g. TextRank and YAKE) with approaches based on Large Language Model. We introduce a novel evaluation framework that combines fuzzy semantic matching based on Levenshtein Distance with exact-match metrics (F1, precision, recall) to address inconsistencies in keyword normalization across scientific corpora. Through an extensive ablation study across nine different LLMs, we analyze their performance and associated costs. Our findings reveal that LLM-based methods consistently achieve superior precision and relevance compared to traditional approaches. This performance advantage suggests significant potential for improving scientific search systems and information retrieval in academic contexts.

pdf bib
Evaluating ASR in a Clinical Context : What Whisper Misses
Haeeul Hwang | Eric Jordan | Deok-Hee Kim-Dufor | Christophe Lemey | Motasem Alrahabi
Proceedings of the 8th International Conference on Natural Language and Speech Processing (ICNLSP-2025)

pdf bib
Extraction de mots-clés à partir d’articles scientifiques: comparaison entre modèles traditionnels et modèles de langue
Motasem Alrahabi | Nacef Ben Mansour | Hamed Rahimi
Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : traductions d'articles publiés

L’extraction automatique des mots-clés est cruciale pour résumer le contenu des documents et affiner la recherche d’informations. Dans cette étude, nous comparons les performances de plusieurs modèles d’extraction et de génération de mots-clés appliqués aux résumés d’articles issus des archives HAL : des approches basées sur des statistiques et des modèles vectoriels, ainsi que des approches génératives modernes utilisant les LLMs. Les résultats montrent que les LLMs surpassent largement les méthodes traditionnelles en termes de précision et de pertinence, même en configuration zero-shot, et que l’inclusion des titres d’articles améliore significativement les scores F1. Nous introduisons également une nouvelle métrique pour évaluer les performances des LLMs en tenant compte des coûts de traitement, offrant ainsi une perspective équilibrée entre efficacité et coût.

2022

pdf bib
Toolbox : une chaîne de traitement de corpus pour les humanités numériques (Toolbox : a corpus processing pipeline for digital humanities)
Johanna Mayra Cordova | Yoann Dupont | Ljudmila Petkovic | James Gawley | Motasem Alrahabi | Glenn Roe
Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 3 : Démonstrations

Le projet Toolbox propose une chaîne de traitement pour la manipulation et le traitement de corpus textuels incluant la numérisation (OCR/HTR), la conversion au format TEI, la fouille de texte (reconnaissance d’entités nommées) et la visualisation de données. Les fonctionnalités sont accessibles via une interface en ligne qui sert de surcouche graphique à des scripts développés par nos soins ou utilisant des outils externes. Elles permettent d’automatiser les tâches élémentaires de traitement de corpus pour les chercheurs en humanités numériques. Cet outil est ouvert aux contributions externes.

pdf bib
Les animaux chinois de Buffon : identification automatique des jugements critiques dans l’Histoire naturelle (1749-1789) (Buffon’s China: digital editing and semantic exploration of Natural History (1749-1789))
Axel Le Roy | Motasem Alrahabi | Glenn Roe
Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Atelier TAL et Humanités Numériques (TAL-HN)

Nous présentons un travail en cours sur la structuration et l’exploration d’un grand corpus textuel de Georges-Louis de Buffon, célèbre naturaliste français du XVIII e siècle. Il s’agit d’éditer en XML-TEI les trente-six volumes de son Histoire naturelle et d’effectuer une première exploration autour de la thématique des animaux chinois. Afin de comprendre la représentation du monde chinois et plus particulièrement la construction et la discussion des savoirs sur les animaux dans l’œuvre de Buffon, nous avons commencé à explorer le corpus selon une approche symbolique à base de lexique. Celleci permet d’identifier dans les textes les passages porteurs de modalités subjectives: opinions, sentiments ou émotions. Malgré la simplicité de notre approche, les résultats nous ont permis de faire des constats intéressants sur la critique des sources chez Buffon, sur sa description des animaux et sur son observation des pratiques chinoises.

2016

pdf bib
E-Quotes : un outil de navigation textuelle guidée par les annotations sémantiques (E-Quotes : A semantic annotations-driven tool for textual navigation)
Motasem Alrahabi
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 5 : Démonstrations

Nous présentons E-Quotes, un outil de navigation textuelle guidée par les annotations sémantiques. Le système permet de localiser les mots clés et leurs variantes dans les citations sémantiquement catégorisés dans corpus annoté, et de naviguer entre ces citations. Nous avons expérimenté ce système sur un corpus de littérature française automatiquement annoté selon des catégories sémantiques présentes dans le contexte des citations, comme par exemple la définition, l’argumentation, l’opinion, l’ironie ou la rumeur rapportées.

2009

pdf bib
EXCOM : Plate-forme d’annotation sémantique de textes multilingues
Motasem Alrahabi | Jean-Pierre Desclés
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations

Nous proposons une plateforme d‟annotation sémantique, appelée « EXCOM ». Basée sur la méthode de l‟ « Exploration Contextuelle », elle permet, à travers une diversité de langues, de procéder à des annotations automatiques de segments textuels par l’analyse des formes de surface dans leur contexte. Les textes sont traités selon des « points de vue » discursifs dont les valeurs sont organisées dans une « carte sémantique ». L‟annotation se base sur un ensemble de règles linguistiques, écrites par un analyste, qui permettent d‟identifier les représentations textuelles sous-jacentes aux différentes catégories de la carte. Le système offre, à travers deux types d‟interfaces (développeur ou utilisateur), une chaîne de traitements automatiques de textes qui comprend la segmentation, l‟annotation et d‟autres fonctionnalités de post-traitement. Les documents annotés peuvent être utilisés, par exemple, pour des systèmes de recherche d‟information, de veille, de classification ou de résumé automatique.