坑多洛夫斯基坑多洛夫斯基

2025

CCL25-Eval 任务9系统报告:基于大模型及指令微调方法的中医辨证辨病及中药处方生成研究
坑多洛夫斯基坑多洛夫斯基
Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025)

"辨证论治是中医认识疾病和治疗疾病的核心原则和方法,其基本思想是通过望、闻、问、切的方法,收集患者症状、舌苔、脉象等临床信息,通过分析、综合,辨清疾病的病因、病机,概括、判断为某种性质的证,进而制定个性化的治疗方案,开具合适的中药处方予以治疗。本研究探究如何增强大模型根据格式化,标准化的中医病例自动生成相对应的辨证辨病及中药处方的能力。本研究将任务拆分为辩证辨病与中药处方生成两个任务,使用的训练框架是LLamafactory,使用的大模型是开源模型(qwen2.5-7B-Instruct(Qwen Team, 2024),qwen3-4B)。首先设置lora参数为LLamafactory默认参数,修改参数中验证集比例为0.2,epoch为5,进行lora监督微调,获得验证集相对最佳的epoch。然后,设置lora参数为默认,修改其中的epoch参数为验证集最佳epoch+1,同时对模型进行全数据lora调参优化,择其中相对最优者。最后对全数据进行full微调,与lora调参最优模型比较,择其更优者。最终在B榜中获得score1:0.648,score:0.4259,总score:0.5369,综合排名第一的成绩。"

pdf bib abs

CCL25-Eval任务12系统报告:基于端到端模型以及指令微调方法的面向中文语音的实体关系三元组抽取研究
坑多洛夫斯基坑多洛夫斯基
Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025)

"传统的关系三元组抽取任务主要集中于书面文本,通过识别实体及其相互关系来构建结构化的知识图谱。然而,语音作为人机交互的主要形式之一,在智能助手、智能客服、语音搜索等诸多应用中发挥着日益重要的作用。因此,如何高效、准确地从语音数据中提取有价值的结构化信息成为研究的热点之一。本研究通过测试模型在数据集上的性能,探究如何增强模型在三元抽取任务中的能力。本研究使用的训练框架是LLamafactory,使用的大模型是两个7B量级的开源模型(qwen2-audio,qwen2.5-omin(Qwen Team, 2025)),首先任取其中的一个模型(本研究选取的为qwen2-audio)设置lora参数为LLamafactory默认参数,修改参数中验证集比例为0.2,epoch为5,进行lora监督微调,获得验证集最佳的epoch。然后,设置lora参数为默认,修改其中的epoch参数为验证集最佳epoch+1,同时对两个模型进行全数据lora监督微调,择其中更优胜者,最后进行进一步的lora调参,以期模型在该任务上达到相对最优性能。最终在B榜获得了end-to-end赛道的第二名,分数为0.5292。"

Co-authors

Venues

CCL2

Fix author