Des Prompts aux Profils: Evaluation de la qualité des données générées par LLM pour la classification des soft skills

Elena Rozera, Nédra Mellouli-Nauwynck, Patrick Leguide, William Morcombe


Abstract
L’extraction automatique des soft skills à partir de CV constitue un enjeu central du Traitement Automatique du Langage Naturel (TALN) pour les ressources humaines. Toutefois, le manque de données annotées et les contraintes de confidentialité limitent le développement de modèles robustes. Cette étude préliminaire explore le potentiel des Grands Modèles de Langage (LLMs) pour générer des CV synthétiques dédiés à la classification des soft skills. Deux corpus sont proposés, un jeu de données de référence généré à partir de prompts explicites, et un corpus de CV complets produits selon une structure réaliste. Un cadre d’évaluation combinant des métriques avec et sans référence est mis en place, afin de mesurer la diversité, la redondance et la fidélité sémantique. Les résultats révèlent des compromis importants entre diversité lexicale et réalisme contextuel, apportant des pistes pour guider la génération future de données synthétiques pour la classification des compétences comportementales.
Anthology ID:
2025.jeptalnrecital-evalllm.8
Volume:
Actes de l'atelier Évaluation des modèles génératifs (LLM) et challenge 2025 (EvalLLM)
Month:
6
Year:
2025
Address:
Marseille, France
Editors:
Frédéric Bechet, Adrian-Gabriel Chifu, Karen Pinel-sauvagnat, Benoit Favre, Eliot Maes, Diana Nurbakova
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA \\& ARIA
Note:
Pages:
91–107
Language:
French
URL:
https://aclanthology.org/2025.jeptalnrecital-evalllm.8/
DOI:
Bibkey:
Cite (ACL):
Elena Rozera, Nédra Mellouli-Nauwynck, Patrick Leguide, and William Morcombe. 2025. Des Prompts aux Profils: Evaluation de la qualité des données générées par LLM pour la classification des soft skills. In Actes de l'atelier Évaluation des modèles génératifs (LLM) et challenge 2025 (EvalLLM), pages 91–107, Marseille, France. ATALA \\& ARIA.
Cite (Informal):
Des Prompts aux Profils: Evaluation de la qualité des données générées par LLM pour la classification des soft skills (Rozera et al., JEP/TALN/RECITAL 2025)
Copy Citation:
PDF:
https://aclanthology.org/2025.jeptalnrecital-evalllm.8.pdf