ChartEval: LLM-Driven Chart Generation Evaluation Using Scene Graph Parsing

Kanika Goswami; Puneet Mathur; Ryan A. Rossi; Franck Dernoncourt; Vivek Gupta; Dinesh Manocha

ChartEval: LLM-Driven Chart Generation Evaluation Using Scene Graph Parsing

Kanika Goswami, Puneet Mathur, Ryan A. Rossi, Franck Dernoncourt, Vivek Gupta, Dinesh Manocha

Abstract

Accurate assessment of generated chart quality is crucial for automated document creation and editing across diverse applications like finance, medicine, policy making, and education. Current evaluation approaches suffer from significant limitations: human evaluation is costly and difficult to scale, pixel-based metrics ignore data accuracy, while data-centric measures overlook design quality. Recent multimodal LLM evaluators show promise but exhibit concerning inconsistencies due to prompt sensitivity and subjective biases. Existing metrics fail to evaluate chart quality holistically across visual similarity, semantic alignment, and data fidelity, often producing misleading scores that unfairly penalize good charts while rewarding bad ones. We introduce ChartEval, a novel chart evaluation system that compares generated chart images with ground truth by leveraging scene graph parsing to decompose chart images into hierarchical scene graphs of chart objects, attributes, and relations. Subsequently, it applies graph-based similarity measures to compare candidate chart scene graphs against reference scene graphs for measuring chart quality. We demonstrate that our evaluation approach achieves significantly stronger correlation with human judgments compared to existing metrics like GPT-Score, SSIM, and SCRM using a comprehensive benchmark of 4K chart images paired with generation intents and human quality ratings. We demonstrate the utility of the ChartEval system as a reliable automatic chart quality metric on diverse tasks, including language-guided chart editing, chart reconstruction, and text-to-chart synthesis using both open-source and API-based LLMs.

Anthology ID:: 2025.ijcnlp-demo.10
Volume:: Proceedings of The 14th International Joint Conference on Natural Language Processing and The 4th Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics: System Demonstrations
Month:: December
Year:: 2025
Address:: Mumbai, India
Editors:: Xuebo Liu, Ayu Purwarianti
Venue:: IJCNLP
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 86–93
Language:
URL:: https://aclanthology.org/2025.ijcnlp-demo.10/
DOI:
Bibkey:
Cite (ACL):: Kanika Goswami, Puneet Mathur, Ryan A. Rossi, Franck Dernoncourt, Vivek Gupta, and Dinesh Manocha. 2025. ChartEval: LLM-Driven Chart Generation Evaluation Using Scene Graph Parsing. In Proceedings of The 14th International Joint Conference on Natural Language Processing and The 4th Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics: System Demonstrations, pages 86–93, Mumbai, India. Association for Computational Linguistics.
Cite (Informal):: ChartEval: LLM-Driven Chart Generation Evaluation Using Scene Graph Parsing (Goswami et al., IJCNLP 2025)
Copy Citation:
PDF:: https://aclanthology.org/2025.ijcnlp-demo.10.pdf

PDF Cite Search Fix data