Évaluation pédagogique du code à l’aide de grands modèles de langage. Une étude comparative à grande échelle contre les tests unitaires

Julien Perez, Anton Conrad, Elkoussy Laïla


Abstract
L’évaluation automatisée en éducation par projet pour l’apprentissage de la programmation s’appuie traditionnellement sur les tests unitaires pour juger les soumissions de code des étudiants, mettant l’accent sur la correction fonctionnelle. Cependant, ces tests négligent souvent des aspects qualitatifs du code, comme la lisibilité ou la modularité. Cette étude examine le potentiel des grands modèles de langage (LLM) pour évaluer les soumissions de programmation, en comparant leurs résultats à ceux des tests unitaires. À partir d’un grand ensemble de données de rendus d’étudiants à une collection de projets de développement logiciel, nous appliquons des analyses statistiques, modélisations prédictives, ainsi que plusieurs comparaisons pour évaluer l’efficacité des LLMs. Nos résultats mettent en évidence une corrélation significative entre les évaluations des LLMs, pour des prompts donnés, et les tests unitaires. Les modèles prédictifs montrent que les scores des LLMs peuvent être approximés à partir des résultats des tests unitaires, et les classements d’étudiants issus des deux approches sont fortement corrélés. Ces constats restent robustes même en présence de bruit injecté dans les rendus étudiants. Ces résultats suggèrent que les LLM, en capturant des dimensions supplémentaires de la performance, peuvent enrichir les cadres d’évaluation éducative, offrant une approche totale plus nuancée et complète.
Anthology ID:
2025.jeptalnrecital-evalllm.16
Volume:
Actes de l'atelier Évaluation des modèles génératifs (LLM) et challenge 2025 (EvalLLM)
Month:
6
Year:
2025
Address:
Marseille, France
Editors:
Frédéric Bechet, Adrian-Gabriel Chifu, Karen Pinel-sauvagnat, Benoit Favre, Eliot Maes, Diana Nurbakova
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA \\& ARIA
Note:
Pages:
188–201
Language:
French
URL:
https://aclanthology.org/2025.jeptalnrecital-evalllm.16/
DOI:
Bibkey:
Cite (ACL):
Julien Perez, Anton Conrad, and Elkoussy Laïla. 2025. Évaluation pédagogique du code à l’aide de grands modèles de langage. Une étude comparative à grande échelle contre les tests unitaires. In Actes de l'atelier Évaluation des modèles génératifs (LLM) et challenge 2025 (EvalLLM), pages 188–201, Marseille, France. ATALA \\& ARIA.
Cite (Informal):
Évaluation pédagogique du code à l’aide de grands modèles de langage. Une étude comparative à grande échelle contre les tests unitaires (Perez et al., JEP/TALN/RECITAL 2025)
Copy Citation:
PDF:
https://aclanthology.org/2025.jeptalnrecital-evalllm.16.pdf