@inproceedings{perez-etal-2025-evaluation-pedagogique,
title = "{\'E}valuation p{\'e}dagogique du code {\`a} l{'}aide de grands mod{\`e}les de langage. Une {\'e}tude comparative {\`a} grande {\'e}chelle contre les tests unitaires",
author = {Perez, Julien and
Conrad, Anton and
La{\"i}la, Elkoussy},
editor = "Bechet, Fr{\'e}d{\'e}ric and
Chifu, Adrian-Gabriel and
Pinel-sauvagnat, Karen and
Favre, Benoit and
Maes, Eliot and
Nurbakova, Diana",
booktitle = "Actes de l'atelier {\'E}valuation des mod{\`e}les g{\'e}n{\'e}ratifs (LLM) et challenge 2025 (EvalLLM)",
month = "6",
year = "2025",
address = "Marseille, France",
publisher = "ATALA {\textbackslash}{\textbackslash}{\&} ARIA",
url = "https://aclanthology.org/2025.jeptalnrecital-evalllm.16/",
pages = "188--201",
language = "fra",
abstract = "L'{\'e}valuation automatis{\'e}e en {\'e}ducation par projet pour l{'}apprentissage de la programmation s{'}appuie traditionnellement sur les tests unitaires pour juger les soumissions de code des {\'e}tudiants, mettant l{'}accent sur la correction fonctionnelle. Cependant, ces tests n{\'e}gligent souvent des aspects qualitatifs du code, comme la lisibilit{\'e} ou la modularit{\'e}. Cette {\'e}tude examine le potentiel des grands mod{\`e}les de langage (LLM) pour {\'e}valuer les soumissions de programmation, en comparant leurs r{\'e}sultats {\`a} ceux des tests unitaires. {\`A} partir d{'}un grand ensemble de donn{\'e}es de rendus d'{\'e}tudiants {\`a} une collection de projets de d{\'e}veloppement logiciel, nous appliquons des analyses statistiques, mod{\'e}lisations pr{\'e}dictives, ainsi que plusieurs comparaisons pour {\'e}valuer l{'}efficacit{\'e} des LLMs. Nos r{\'e}sultats mettent en {\'e}vidence une corr{\'e}lation significative entre les {\'e}valuations des LLMs, pour des prompts donn{\'e}s, et les tests unitaires. Les mod{\`e}les pr{\'e}dictifs montrent que les scores des LLMs peuvent {\^e}tre approxim{\'e}s {\`a} partir des r{\'e}sultats des tests unitaires, et les classements d'{\'e}tudiants issus des deux approches sont fortement corr{\'e}l{\'e}s. Ces constats restent robustes m{\^e}me en pr{\'e}sence de bruit inject{\'e} dans les rendus {\'e}tudiants. Ces r{\'e}sultats sugg{\`e}rent que les LLM, en capturant des dimensions suppl{\'e}mentaires de la performance, peuvent enrichir les cadres d'{\'e}valuation {\'e}ducative, offrant une approche totale plus nuanc{\'e}e et compl{\`e}te."
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="perez-etal-2025-evaluation-pedagogique">
<titleInfo>
<title>Évaluation pédagogique du code à l’aide de grands modèles de langage. Une étude comparative à grande échelle contre les tests unitaires</title>
</titleInfo>
<name type="personal">
<namePart type="given">Julien</namePart>
<namePart type="family">Perez</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Anton</namePart>
<namePart type="family">Conrad</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Elkoussy</namePart>
<namePart type="family">Laïla</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2025-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de l’atelier Évaluation des modèles génératifs (LLM) et challenge 2025 (EvalLLM)</title>
</titleInfo>
<name type="personal">
<namePart type="given">Frédéric</namePart>
<namePart type="family">Bechet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Adrian-Gabriel</namePart>
<namePart type="family">Chifu</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Karen</namePart>
<namePart type="family">Pinel-sauvagnat</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Benoit</namePart>
<namePart type="family">Favre</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Eliot</namePart>
<namePart type="family">Maes</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Diana</namePart>
<namePart type="family">Nurbakova</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA \textbackslash\textbackslash& ARIA</publisher>
<place>
<placeTerm type="text">Marseille, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>L’évaluation automatisée en éducation par projet pour l’apprentissage de la programmation s’appuie traditionnellement sur les tests unitaires pour juger les soumissions de code des étudiants, mettant l’accent sur la correction fonctionnelle. Cependant, ces tests négligent souvent des aspects qualitatifs du code, comme la lisibilité ou la modularité. Cette étude examine le potentiel des grands modèles de langage (LLM) pour évaluer les soumissions de programmation, en comparant leurs résultats à ceux des tests unitaires. À partir d’un grand ensemble de données de rendus d’étudiants à une collection de projets de développement logiciel, nous appliquons des analyses statistiques, modélisations prédictives, ainsi que plusieurs comparaisons pour évaluer l’efficacité des LLMs. Nos résultats mettent en évidence une corrélation significative entre les évaluations des LLMs, pour des prompts donnés, et les tests unitaires. Les modèles prédictifs montrent que les scores des LLMs peuvent être approximés à partir des résultats des tests unitaires, et les classements d’étudiants issus des deux approches sont fortement corrélés. Ces constats restent robustes même en présence de bruit injecté dans les rendus étudiants. Ces résultats suggèrent que les LLM, en capturant des dimensions supplémentaires de la performance, peuvent enrichir les cadres d’évaluation éducative, offrant une approche totale plus nuancée et complète.</abstract>
<identifier type="citekey">perez-etal-2025-evaluation-pedagogique</identifier>
<location>
<url>https://aclanthology.org/2025.jeptalnrecital-evalllm.16/</url>
</location>
<part>
<date>2025-6</date>
<extent unit="page">
<start>188</start>
<end>201</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Évaluation pédagogique du code à l’aide de grands modèles de langage. Une étude comparative à grande échelle contre les tests unitaires
%A Perez, Julien
%A Conrad, Anton
%A Laïla, Elkoussy
%Y Bechet, Frédéric
%Y Chifu, Adrian-Gabriel
%Y Pinel-sauvagnat, Karen
%Y Favre, Benoit
%Y Maes, Eliot
%Y Nurbakova, Diana
%S Actes de l’atelier Évaluation des modèles génératifs (LLM) et challenge 2025 (EvalLLM)
%D 2025
%8 June
%I ATALA \textbackslash\textbackslash& ARIA
%C Marseille, France
%G fra
%F perez-etal-2025-evaluation-pedagogique
%X L’évaluation automatisée en éducation par projet pour l’apprentissage de la programmation s’appuie traditionnellement sur les tests unitaires pour juger les soumissions de code des étudiants, mettant l’accent sur la correction fonctionnelle. Cependant, ces tests négligent souvent des aspects qualitatifs du code, comme la lisibilité ou la modularité. Cette étude examine le potentiel des grands modèles de langage (LLM) pour évaluer les soumissions de programmation, en comparant leurs résultats à ceux des tests unitaires. À partir d’un grand ensemble de données de rendus d’étudiants à une collection de projets de développement logiciel, nous appliquons des analyses statistiques, modélisations prédictives, ainsi que plusieurs comparaisons pour évaluer l’efficacité des LLMs. Nos résultats mettent en évidence une corrélation significative entre les évaluations des LLMs, pour des prompts donnés, et les tests unitaires. Les modèles prédictifs montrent que les scores des LLMs peuvent être approximés à partir des résultats des tests unitaires, et les classements d’étudiants issus des deux approches sont fortement corrélés. Ces constats restent robustes même en présence de bruit injecté dans les rendus étudiants. Ces résultats suggèrent que les LLM, en capturant des dimensions supplémentaires de la performance, peuvent enrichir les cadres d’évaluation éducative, offrant une approche totale plus nuancée et complète.
%U https://aclanthology.org/2025.jeptalnrecital-evalllm.16/
%P 188-201
Markdown (Informal)
[Évaluation pédagogique du code à l’aide de grands modèles de langage. Une étude comparative à grande échelle contre les tests unitaires](https://aclanthology.org/2025.jeptalnrecital-evalllm.16/) (Perez et al., JEP/TALN/RECITAL 2025)
ACL