Alexandru Lata


2025

Les Grands Modèles de Langage (LLM) sont de plus en plus intégrés dans des applications nécessitant des sorties formatées. Deux approches principales existent : instruire le LLM de générer directement la structure (e.g., JSON, SQL) puis la parser (post-parsing), ou utiliser des techniques de génération contrainte garantissant la syntaxe. Cette étude compare rigoureusement ces deux méthodes sur une tâche d’analyse de désinformation à grande échelle ( 17k documents du corpus EUvsDisinfo) en utilisant quatre LLM (Llama-3.3 70B, DeepSeek R1 70B, Qwen 72B, Gemma 3 27B) et plusieurs températures de génération. Nos résultats indiquent que la génération contrainte offre une fiabilité syntaxique quasi parfaite, tandis que le post-parsing est opérationnellement plus robuste mais génère davantage d’erreurs de formatage.