Chenzi Wang
2025
CCL25-Eval任务8系统报告:基于规则奖励与自主思考强化学习的中文电子病历ICD诊断编码探索
Zou You | Lei Zhang | Xiaodong Liang | Kundong Mo | Guozitao Guozitao | Feng Wei | Chenzi Wang
Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025)
Zou You | Lei Zhang | Xiaodong Liang | Kundong Mo | Guozitao Guozitao | Feng Wei | Chenzi Wang
Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025)
"世界卫生组织国际疾病分类ICD诊断编码的自动生成是医疗信息化的核心挑战,面临主诊断单标签分类准确性不足、其他诊断多标签预测不完整以及长尾分布等技术瓶颈。本文系统研究探索了大语言模型在中文电子病历ICD诊断编码任务中的微调范式创新,针对生成式微调、判别式微调,以及强化学习分别提出了不同的微调训练策略。其中,创新性地设计针对医疗特性的基于规则奖励的强化学习框架(RBRs-RL),通过动态难度校准、Token级梯度优化和超长奖励塑造策略改进了GRPO算法的效率和性能,同时结合提出的策略轮动数据增强迭代训练(SRADIT)策略,实现了强化微调性能上限的提升。此外,本文还系统比较了生成式与判别式微调在中文诊断ICD编码任务中的性能边界,同时构建了端到端的临床决策优化框架,为奖励微调提供有效路径。并且针对推理阶段,本文设计了一种温度调节集成共识预测方法(TCECP),提升了推理的稳定性和可靠性。最后基于Qwen2.5-7B模型的微调实验结果表明,通过本文提出的优化后的RBR-R1式强化微调方法,在CCL25-Eval任务朸的A榜和B榜分别取得80.98和82.33的优异成绩,其效果显著超越传统SFT的性能上限。综上所述,本文的探索与发现为医疗诊断编码系统的实际应用提供了重要的技术参考。"
CCL25-Eval任务10系统报告:基于动态线索增强提示与多阶段渐进优化的中文仇恨言论检测方法
LuRuan LuRuan | ZhaiBo ZhaiBo | Lei Zhang | Lie Bao | Zeyu Wang | Feng Wei | Chenzi Wang
Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025)
LuRuan LuRuan | ZhaiBo ZhaiBo | Lei Zhang | Lie Bao | Zeyu Wang | Feng Wei | Chenzi Wang
Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025)
"随着社交媒体的迅速普及,用户生成内容呈指数级增长,同时也助长了仇恨言论的扩散。因此,有效检测仇恨言论已成为自然语言处理研究领域的一项关键挑战。为推动中文仇恨言论检测技术的发展,本文提出了一种新颖的大语言模型微调框架,该框架融合了动态线索增强提示和多阶段渐进优化方法。所提出的方法将复杂的细粒度仇恨言论识别任务分解为两个相辅相成的子任务:仇恨倾向分类和仇恨信息提取。为此采用了两种专门的训练策略:动态线索增强提示微调(DCA-SFT)用于优化模型的分类性能,而动态线索增强强化学习(DCA-RL)则用于提升模型的信息提取能力。具体而言,在DCA-SFT阶段,引入判别式分类并采用多标签独热(Multi-Hot)编码作为输出表示形式,以提高模型的多类别分类准确率。在DCA-RL阶段,通过知识蒸馏的方式,将闭源大语言模型在执行仇恨信息提取任务时的思维链(CoT)知识迁移至小参数模型,同时引入基于规则奖励的强化微调策略来增强小参数模型在信息提取任务中的逻辑推理能力。实验结果证明了该方法的有效性,在CCL25-Eval任务10的初赛排行榜上以0.3864的F1值,排名第二;在决赛排行榜上以0.3591的F1值,位列第三。"