@inproceedings{rozera-etal-2025-des,
title = "Des Prompts aux Profils: Evaluation de la qualit{\'e} des donn{\'e}es g{\'e}n{\'e}r{\'e}es par {LLM} pour la classification des soft skills",
author = "Rozera, Elena and
Mellouli-Nauwynck, N{\'e}dra and
Leguide, Patrick and
Morcombe, William",
editor = "Bechet, Fr{\'e}d{\'e}ric and
Chifu, Adrian-Gabriel and
Pinel-sauvagnat, Karen and
Favre, Benoit and
Maes, Eliot and
Nurbakova, Diana",
booktitle = "Actes de l'atelier {\'E}valuation des mod{\`e}les g{\'e}n{\'e}ratifs (LLM) et challenge 2025 (EvalLLM)",
month = "6",
year = "2025",
address = "Marseille, France",
publisher = "ATALA {\textbackslash}{\textbackslash}{\&} ARIA",
url = "https://aclanthology.org/2025.jeptalnrecital-evalllm.8/",
pages = "91--107",
language = "fra",
abstract = "L{'}extraction automatique des soft skills {\`a} partir de CV constitue un enjeu central du Traitement Automatique du Langage Naturel (TALN) pour les ressources humaines. Toutefois, le manque de donn{\'e}es annot{\'e}es et les contraintes de confidentialit{\'e} limitent le d{\'e}veloppement de mod{\`e}les robustes. Cette {\'e}tude pr{\'e}liminaire explore le potentiel des Grands Mod{\`e}les de Langage (LLMs) pour g{\'e}n{\'e}rer des CV synth{\'e}tiques d{\'e}di{\'e}s {\`a} la classification des soft skills. Deux corpus sont propos{\'e}s, un jeu de donn{\'e}es de r{\'e}f{\'e}rence g{\'e}n{\'e}r{\'e} {\`a} partir de prompts explicites, et un corpus de CV complets produits selon une structure r{\'e}aliste. Un cadre d'{\'e}valuation combinant des m{\'e}triques avec et sans r{\'e}f{\'e}rence est mis en place, afin de mesurer la diversit{\'e}, la redondance et la fid{\'e}lit{\'e} s{\'e}mantique. Les r{\'e}sultats r{\'e}v{\`e}lent des compromis importants entre diversit{\'e} lexicale et r{\'e}alisme contextuel, apportant des pistes pour guider la g{\'e}n{\'e}ration future de donn{\'e}es synth{\'e}tiques pour la classification des comp{\'e}tences comportementales."
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="rozera-etal-2025-des">
<titleInfo>
<title>Des Prompts aux Profils: Evaluation de la qualité des données générées par LLM pour la classification des soft skills</title>
</titleInfo>
<name type="personal">
<namePart type="given">Elena</namePart>
<namePart type="family">Rozera</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Nédra</namePart>
<namePart type="family">Mellouli-Nauwynck</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Patrick</namePart>
<namePart type="family">Leguide</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">William</namePart>
<namePart type="family">Morcombe</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2025-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de l’atelier Évaluation des modèles génératifs (LLM) et challenge 2025 (EvalLLM)</title>
</titleInfo>
<name type="personal">
<namePart type="given">Frédéric</namePart>
<namePart type="family">Bechet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Adrian-Gabriel</namePart>
<namePart type="family">Chifu</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Karen</namePart>
<namePart type="family">Pinel-sauvagnat</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Benoit</namePart>
<namePart type="family">Favre</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Eliot</namePart>
<namePart type="family">Maes</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Diana</namePart>
<namePart type="family">Nurbakova</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA \textbackslash\textbackslash& ARIA</publisher>
<place>
<placeTerm type="text">Marseille, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>L’extraction automatique des soft skills à partir de CV constitue un enjeu central du Traitement Automatique du Langage Naturel (TALN) pour les ressources humaines. Toutefois, le manque de données annotées et les contraintes de confidentialité limitent le développement de modèles robustes. Cette étude préliminaire explore le potentiel des Grands Modèles de Langage (LLMs) pour générer des CV synthétiques dédiés à la classification des soft skills. Deux corpus sont proposés, un jeu de données de référence généré à partir de prompts explicites, et un corpus de CV complets produits selon une structure réaliste. Un cadre d’évaluation combinant des métriques avec et sans référence est mis en place, afin de mesurer la diversité, la redondance et la fidélité sémantique. Les résultats révèlent des compromis importants entre diversité lexicale et réalisme contextuel, apportant des pistes pour guider la génération future de données synthétiques pour la classification des compétences comportementales.</abstract>
<identifier type="citekey">rozera-etal-2025-des</identifier>
<location>
<url>https://aclanthology.org/2025.jeptalnrecital-evalllm.8/</url>
</location>
<part>
<date>2025-6</date>
<extent unit="page">
<start>91</start>
<end>107</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Des Prompts aux Profils: Evaluation de la qualité des données générées par LLM pour la classification des soft skills
%A Rozera, Elena
%A Mellouli-Nauwynck, Nédra
%A Leguide, Patrick
%A Morcombe, William
%Y Bechet, Frédéric
%Y Chifu, Adrian-Gabriel
%Y Pinel-sauvagnat, Karen
%Y Favre, Benoit
%Y Maes, Eliot
%Y Nurbakova, Diana
%S Actes de l’atelier Évaluation des modèles génératifs (LLM) et challenge 2025 (EvalLLM)
%D 2025
%8 June
%I ATALA \textbackslash\textbackslash& ARIA
%C Marseille, France
%G fra
%F rozera-etal-2025-des
%X L’extraction automatique des soft skills à partir de CV constitue un enjeu central du Traitement Automatique du Langage Naturel (TALN) pour les ressources humaines. Toutefois, le manque de données annotées et les contraintes de confidentialité limitent le développement de modèles robustes. Cette étude préliminaire explore le potentiel des Grands Modèles de Langage (LLMs) pour générer des CV synthétiques dédiés à la classification des soft skills. Deux corpus sont proposés, un jeu de données de référence généré à partir de prompts explicites, et un corpus de CV complets produits selon une structure réaliste. Un cadre d’évaluation combinant des métriques avec et sans référence est mis en place, afin de mesurer la diversité, la redondance et la fidélité sémantique. Les résultats révèlent des compromis importants entre diversité lexicale et réalisme contextuel, apportant des pistes pour guider la génération future de données synthétiques pour la classification des compétences comportementales.
%U https://aclanthology.org/2025.jeptalnrecital-evalllm.8/
%P 91-107
Markdown (Informal)
[Des Prompts aux Profils: Evaluation de la qualité des données générées par LLM pour la classification des soft skills](https://aclanthology.org/2025.jeptalnrecital-evalllm.8/) (Rozera et al., JEP/TALN/RECITAL 2025)
ACL