PlanGPT-VL: Enhancing Urban Planning with Domain-Specific Vision-Language Models

He Zhu; Junyou Su; Minxin Chen; Wen Wang (王雯); Yijie Deng; Guanhua Chen; Wenjia Zhang

doi:10.18653/v1/2025.emnlp-industry.169

PlanGPT-VL: Enhancing Urban Planning with Domain-Specific Vision-Language Models

He Zhu, Junyou Su, Minxin Chen, Wen Wang, Yijie Deng, Guanhua Chen, Wenjia Zhang

Abstract

In the field of urban planning, existing Vision-Language Models (VLMs) frequently fail to effectively analyze planning maps, which are critical for urban planners and educational contexts. Planning maps require specialized understanding of spatial configurations, regulatory requirements, and multi-scale analysis.To address this challenge, we introduce PlanGPT-VL, the first domain-specific VLM tailored for urban planning maps. PlanGPT-VL employs three innovations:(1) PlanAnno-V framework for high-quality VQA data synthesis,(2) Critical Point Thinking (CPT) to reduce hallucinations through structured verification, and(3) PlanBench-V benchmark for systematic evaluation.Evaluation on PlanBench-V shows that PlanGPT-VL outperforms general-purpose VLMs on planning map interpretation tasks, with our 7B model achieving performance comparable to larger 72B models.

Anthology ID:: 2025.emnlp-industry.169
Volume:: Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing: Industry Track
Month:: November
Year:: 2025
Address:: Suzhou (China)
Editors:: Saloni Potdar, Lina Rojas-Barahona, Sebastien Montella
Venue:: EMNLP
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 2461–2483
Language:
URL:: https://aclanthology.org/2025.emnlp-industry.169/
DOI:: 10.18653/v1/2025.emnlp-industry.169
Bibkey:
Cite (ACL):: He Zhu, Junyou Su, Minxin Chen, Wen Wang, Yijie Deng, Guanhua Chen, and Wenjia Zhang. 2025. PlanGPT-VL: Enhancing Urban Planning with Domain-Specific Vision-Language Models. In Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing: Industry Track, pages 2461–2483, Suzhou (China). Association for Computational Linguistics.
Cite (Informal):: PlanGPT-VL: Enhancing Urban Planning with Domain-Specific Vision-Language Models (Zhu et al., EMNLP 2025)
Copy Citation:
PDF:: https://aclanthology.org/2025.emnlp-industry.169.pdf

PDF Cite Search Fix data