When Words Smile: Generating Diverse Emotional Facial Expressions from Text

Haidong Xu; Meishan Zhang; Hao Ju; Zhedong Zheng; Erik Cambria; Min Zhang; Hao Fei

doi:10.18653/v1/2025.emnlp-main.1374

When Words Smile: Generating Diverse Emotional Facial Expressions from Text

Haidong Xu, Meishan Zhang, Hao Ju, Zhedong Zheng, Erik Cambria, Min Zhang, Hao Fei

Abstract

Enabling digital humans to express rich emotions has significant applications in dialogue systems, gaming, and other interactive scenarios. While recent advances in talking head synthesis have achieved impressive results in lip synchronization, they tend to overlook the rich and dynamic nature of facial expressions. To fill this critical gap, we introduce an end-to-end text-to-expression model that explicitly focuses on emotional dynamics. Our model learns expressive facial variations in a continuous latent space and generates expressions that are diverse, fluid, and emotionally coherent. To support this task, we introduce EmoAva, a large-scale and high-quality dataset containing 15,000 text–3D expression pairs. Extensive experiments on both existing datasets and EmoAva demonstrate that our method significantly outperforms baselines across multiple evaluation metrics, marking a significant advancement in the field.

Anthology ID:: 2025.emnlp-main.1374
Volume:: Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing
Month:: November
Year:: 2025
Address:: Suzhou, China
Editors:: Christos Christodoulopoulos, Tanmoy Chakraborty, Carolyn Rose, Violet Peng
Venue:: EMNLP
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 27028–27046
Language:
URL:: https://aclanthology.org/2025.emnlp-main.1374/
DOI:: 10.18653/v1/2025.emnlp-main.1374
Bibkey:
Cite (ACL):: Haidong Xu, Meishan Zhang, Hao Ju, Zhedong Zheng, Erik Cambria, Min Zhang, and Hao Fei. 2025. When Words Smile: Generating Diverse Emotional Facial Expressions from Text. In Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing, pages 27028–27046, Suzhou, China. Association for Computational Linguistics.
Cite (Informal):: When Words Smile: Generating Diverse Emotional Facial Expressions from Text (Xu et al., EMNLP 2025)
Copy Citation:
PDF:: https://aclanthology.org/2025.emnlp-main.1374.pdf
Checklist:: 2025.emnlp-main.1374.checklist.pdf

PDF Cite Search Checklist Fix data