Apprentissage par renforcement pour l’alignement des agents LLMs avec des environnements interactifs : quantification et réduction du surapprentissage aux prompts

Mohamed Salim Aissi, Clement Romac, Thomas Carta, Sylvain Lamprier, Pierre-Yves Oudeyer, Olivier Sigaud, Laure Soulier, Nicolas Thome


Abstract
L’apprentissage par renforcement constitue une approche prometteuse pour aligner les connaissances des Grands Modèles de Langue (LLMs) avec des tâches de prise de décision séquentielle. Cependant, peu d’études ont analysé en profondeur l’impact de l’ajustement des LLMs par apprentissage par renforcement dans un environnement spécifique. Dans cet article, nous proposons un nouveau cadre d’analyse pour évaluer la sensibilité des LLMs aux formulations de prompt après un entraînement par renforcement dans un environnement textuel. Nos résultats montrent que la performance des LLMs se dégrade lorsqu’ils sont confrontés à des formulations de prompt différentes de celles utilisées durant la phase d’entraînement par renforcement. Par ailleurs, nous analysons l’origine de cette sensibilité en examinant les représentations internes du modèle ainsi que les tokens saillants. Enfin, nous proposons l’utilisation d’une fonction de coût contrastive afin d’atténuer cette sensibilité et d’améliorer la robustesse et les capacités de généralisation des LLMs.
Anthology ID:
2025.jeptalnrecital-trad.5
Volume:
Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : traductions d'articles publiés
Month:
6
Year:
2025
Address:
Marseille, France
Editors:
Frédéric Bechet, Adrian-Gabriel Chifu, Karen Pinel-sauvagnat, Benoit Favre, Eliot Maes, Diana Nurbakova
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA \\& ARIA
Note:
Pages:
6–7
Language:
French
URL:
https://aclanthology.org/2025.jeptalnrecital-trad.5/
DOI:
Bibkey:
Cite (ACL):
Mohamed Salim Aissi, Clement Romac, Thomas Carta, Sylvain Lamprier, Pierre-Yves Oudeyer, Olivier Sigaud, Laure Soulier, and Nicolas Thome. 2025. Apprentissage par renforcement pour l’alignement des agents LLMs avec des environnements interactifs : quantification et réduction du surapprentissage aux prompts. In Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : traductions d'articles publiés, pages 6–7, Marseille, France. ATALA \\& ARIA.
Cite (Informal):
Apprentissage par renforcement pour l’alignement des agents LLMs avec des environnements interactifs : quantification et réduction du surapprentissage aux prompts (Salim Aissi et al., JEP/TALN/RECITAL 2025)
Copy Citation:
PDF:
https://aclanthology.org/2025.jeptalnrecital-trad.5.pdf