@inproceedings{keraghel-nadif-2025-graphes,
title = "Graphes, {NER} et {LLM}s pour la classification non supervis{\'e}e de documents",
author = "Keraghel, Imed and
Nadif, Mohamed",
editor = "Bechet, Fr{\'e}d{\'e}ric and
Chifu, Adrian-Gabriel and
Pinel-sauvagnat, Karen and
Favre, Benoit and
Maes, Eliot and
Nurbakova, Diana",
booktitle = "Actes des 32{\`e}me Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : traductions d'articles publi{\'e}s",
month = "6",
year = "2025",
address = "Marseille, France",
publisher = "ATALA {\textbackslash}{\textbackslash}{\&} ARIA",
url = "https://aclanthology.org/2025.jeptalnrecital-trad.15/",
pages = "31--31",
language = "fra",
abstract = "Les r{\'e}cents progr{\`e}s en apprentissage automatique, notamment les mod{\`e}les de langage de grande taille (LLMs) tels que BERT et GPT, offrent des plongements contextuels riches qui am{\'e}liorent la repr{\'e}sentation des textes. Cependant, les approches actuelles de clustering de documents n{\'e}gligent souvent les relations profondes entre entit{\'e}s nomm{\'e}es ainsi que le potentiel des repr{\'e}sentations issues des LLMs. Cet article propose une nouvelle approche qui int{\`e}gre la reconnaissance d{'}entit{\'e}s nomm{\'e}es (NER) et les embeddings de LLMs dans un cadre fond{\'e} sur les graphes pour le clustering de documents. La m{\'e}thode construit un graphe dont les n{\oe}uds repr{\'e}sentent les documents et dont les ar{\^e}tes sont pond{\'e}r{\'e}es par la similarit{\'e} entre entit{\'e}s nomm{\'e}es, le tout optimis{\'e} au moyen d{'}un r{\'e}seau de neurones convolutifs sur graphes (GCN). Cela permet un regroupement plus efficace des documents s{\'e}mantiquement proches. Les r{\'e}sultats exp{\'e}rimentaux indiquent que notre approche surpasse les m{\'e}thodes traditionnelles bas{\'e}es sur la cooccurrence, en particulier pour les documents riches en entit{\'e}s nomm{\'e}es."
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="keraghel-nadif-2025-graphes">
<titleInfo>
<title>Graphes, NER et LLMs pour la classification non supervisée de documents</title>
</titleInfo>
<name type="personal">
<namePart type="given">Imed</namePart>
<namePart type="family">Keraghel</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Mohamed</namePart>
<namePart type="family">Nadif</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2025-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : traductions d’articles publiés</title>
</titleInfo>
<name type="personal">
<namePart type="given">Frédéric</namePart>
<namePart type="family">Bechet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Adrian-Gabriel</namePart>
<namePart type="family">Chifu</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Karen</namePart>
<namePart type="family">Pinel-sauvagnat</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Benoit</namePart>
<namePart type="family">Favre</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Eliot</namePart>
<namePart type="family">Maes</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Diana</namePart>
<namePart type="family">Nurbakova</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA \textbackslash\textbackslash& ARIA</publisher>
<place>
<placeTerm type="text">Marseille, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Les récents progrès en apprentissage automatique, notamment les modèles de langage de grande taille (LLMs) tels que BERT et GPT, offrent des plongements contextuels riches qui améliorent la représentation des textes. Cependant, les approches actuelles de clustering de documents négligent souvent les relations profondes entre entités nommées ainsi que le potentiel des représentations issues des LLMs. Cet article propose une nouvelle approche qui intègre la reconnaissance d’entités nommées (NER) et les embeddings de LLMs dans un cadre fondé sur les graphes pour le clustering de documents. La méthode construit un graphe dont les nøeuds représentent les documents et dont les arêtes sont pondérées par la similarité entre entités nommées, le tout optimisé au moyen d’un réseau de neurones convolutifs sur graphes (GCN). Cela permet un regroupement plus efficace des documents sémantiquement proches. Les résultats expérimentaux indiquent que notre approche surpasse les méthodes traditionnelles basées sur la cooccurrence, en particulier pour les documents riches en entités nommées.</abstract>
<identifier type="citekey">keraghel-nadif-2025-graphes</identifier>
<location>
<url>https://aclanthology.org/2025.jeptalnrecital-trad.15/</url>
</location>
<part>
<date>2025-6</date>
<extent unit="page">
<start>31</start>
<end>31</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Graphes, NER et LLMs pour la classification non supervisée de documents
%A Keraghel, Imed
%A Nadif, Mohamed
%Y Bechet, Frédéric
%Y Chifu, Adrian-Gabriel
%Y Pinel-sauvagnat, Karen
%Y Favre, Benoit
%Y Maes, Eliot
%Y Nurbakova, Diana
%S Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : traductions d’articles publiés
%D 2025
%8 June
%I ATALA \textbackslash\textbackslash& ARIA
%C Marseille, France
%G fra
%F keraghel-nadif-2025-graphes
%X Les récents progrès en apprentissage automatique, notamment les modèles de langage de grande taille (LLMs) tels que BERT et GPT, offrent des plongements contextuels riches qui améliorent la représentation des textes. Cependant, les approches actuelles de clustering de documents négligent souvent les relations profondes entre entités nommées ainsi que le potentiel des représentations issues des LLMs. Cet article propose une nouvelle approche qui intègre la reconnaissance d’entités nommées (NER) et les embeddings de LLMs dans un cadre fondé sur les graphes pour le clustering de documents. La méthode construit un graphe dont les nøeuds représentent les documents et dont les arêtes sont pondérées par la similarité entre entités nommées, le tout optimisé au moyen d’un réseau de neurones convolutifs sur graphes (GCN). Cela permet un regroupement plus efficace des documents sémantiquement proches. Les résultats expérimentaux indiquent que notre approche surpasse les méthodes traditionnelles basées sur la cooccurrence, en particulier pour les documents riches en entités nommées.
%U https://aclanthology.org/2025.jeptalnrecital-trad.15/
%P 31-31
Markdown (Informal)
[Graphes, NER et LLMs pour la classification non supervisée de documents](https://aclanthology.org/2025.jeptalnrecital-trad.15/) (Keraghel & Nadif, JEP/TALN/RECITAL 2025)
ACL