面向心理健康咨询的藏语数据集及大语言模型构建(Construction of Tibetan Datasets and Large Language Models for Psychological Health Counseling)

Zhu Mengxiao (朱孟笑), Sha Jiu (沙九), Feng Chong (冯冲)


Abstract
“焦虑、抑郁已成为人们常见的心理障碍,适度的疏导对于缓解人们精神、心理压力具有重要意义。然而由于病耻感等原因,很多人得不到及时的疏导和治疗。随着人工智能的发展,大语言模型(LLMs)优越的知识融会贯通能力和思维链能力,使得其成为心理疏导的有效工具。然而,现有少量面向心理健康咨询的大语言模型通常针对英文、中文等资源丰富的语种,而对于低资源语言,LLMs在心理咨询领域的应用尚缺少研究。本文以藏语作为低资源语言的代表,研究藏语心理咨询数据集的构建和藏语心理健康大语言模型的构建方法。首先,通过收集现有高质量的中文心理咨询对话数据,并对数据进行处理,生成心理健康多轮对话数据集;其次,构建汉藏翻译工具将其翻译成藏语多轮对话数据,并结合多种机制对数据进行筛选、过滤生成高质量藏语心理健康多轮对话数据;基于构造的数据,采用现有通用大语言模型Baichuan2和LLaMA2模型进行指令调优训练,形成藏语心理健康大语言模型,并将开源用于科学研究。最后通过实验验证了本文发布的藏语心理健康多轮对话数据集以及藏语心理健康咨询大语言模型的有效性。”
Anthology ID:
2024.ccl-1.25
Volume:
Proceedings of the 23rd Chinese National Conference on Computational Linguistics (Volume 1: Main Conference)
Month:
July
Year:
2024
Address:
Taiyuan, China
Editors:
Maosong Sun, Jiye Liang, Xianpei Han, Zhiyuan Liu, Yulan He
Venue:
CCL
SIG:
Publisher:
Chinese Information Processing Society of China
Note:
Pages:
326–339
Language:
Chinese
URL:
https://aclanthology.org/2024.ccl-1.25/
DOI:
Bibkey:
Cite (ACL):
Zhu Mengxiao, Sha Jiu, and Feng Chong. 2024. 面向心理健康咨询的藏语数据集及大语言模型构建(Construction of Tibetan Datasets and Large Language Models for Psychological Health Counseling). In Proceedings of the 23rd Chinese National Conference on Computational Linguistics (Volume 1: Main Conference), pages 326–339, Taiyuan, China. Chinese Information Processing Society of China.
Cite (Informal):
面向心理健康咨询的藏语数据集及大语言模型构建(Construction of Tibetan Datasets and Large Language Models for Psychological Health Counseling) (Mengxiao et al., CCL 2024)
Copy Citation:
PDF:
https://aclanthology.org/2024.ccl-1.25.pdf