@inproceedings{you-etal-2025-ccl25,
title = "{CCL}25-Eval任务8系统报告:基于规则奖励与自主思考强化学习的中文电子病历{ICD}诊断编码探索",
author = "You, Zou and
Zhang, Lei and
Liang, Xiaodong and
Mo, Kundong and
Guozitao, Guozitao and
Wei, Feng and
Wang, Chenzi",
editor = "Lin, Hongfei and
Li, Bin and
Tan, Hongye",
booktitle = "Proceedings of the 24th {C}hina National Conference on Computational Linguistics ({CCL} 2025)",
month = aug,
year = "2025",
address = "Jinan, China",
publisher = "Chinese Information Processing Society of China",
url = "https://aclanthology.org/2025.ccl-2.38/",
pages = "322--330",
abstract = "``世界卫生组织国际疾病分类ICD诊断编码的自动生成是医疗信息化的核心挑战,面临主诊断单标签分类准确性不足、其他诊断多标签预测不完整以及长尾分布等技术瓶颈。本文系统研究探索了大语言模型在中文电子病历ICD诊断编码任务中的微调范式创新,针对生成式微调、判别式微调,以及强化学习分别提出了不同的微调训练策略。其中,创新性地设计针对医疗特性的基于规则奖励的强化学习框架(RBRs-RL),通过动态难度校准、Token级梯度优化和超长奖励塑造策略改进了GRPO算法的效率和性能,同时结合提出的策略轮动数据增强迭代训练(SRADIT)策略,实现了强化微调性能上限的提升。此外,本文还系统比较了生成式与判别式微调在中文诊断ICD编码任务中的性能边界,同时构建了端到端的临床决策优化框架,为奖励微调提供有效路径。并且针对推理阶段,本文设计了一种温度调节集成共识预测方法(TCECP),提升了推理的稳定性和可靠性。最后基于Qwen2.5-7B模型的微调实验结果表明,通过本文提出的优化后的RBR-R1式强化微调方法,在CCL25-Eval任务朸的A榜和B榜分别取得80.98和82.33的优异成绩,其效果显著超越传统SFT的性能上限。综上所述,本文的探索与发现为医疗诊断编码系统的实际应用提供了重要的技术参考。''"
}<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="you-etal-2025-ccl25">
<titleInfo>
<title>CCL25-Eval任务8系统报告:基于规则奖励与自主思考强化学习的中文电子病历ICD诊断编码探索</title>
</titleInfo>
<name type="personal">
<namePart type="given">Zou</namePart>
<namePart type="family">You</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Lei</namePart>
<namePart type="family">Zhang</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Xiaodong</namePart>
<namePart type="family">Liang</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Kundong</namePart>
<namePart type="family">Mo</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Guozitao</namePart>
<namePart type="family">Guozitao</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Feng</namePart>
<namePart type="family">Wei</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Chenzi</namePart>
<namePart type="family">Wang</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2025-08</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<relatedItem type="host">
<titleInfo>
<title>Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025)</title>
</titleInfo>
<name type="personal">
<namePart type="given">Hongfei</namePart>
<namePart type="family">Lin</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Bin</namePart>
<namePart type="family">Li</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Hongye</namePart>
<namePart type="family">Tan</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>Chinese Information Processing Society of China</publisher>
<place>
<placeTerm type="text">Jinan, China</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>“世界卫生组织国际疾病分类ICD诊断编码的自动生成是医疗信息化的核心挑战,面临主诊断单标签分类准确性不足、其他诊断多标签预测不完整以及长尾分布等技术瓶颈。本文系统研究探索了大语言模型在中文电子病历ICD诊断编码任务中的微调范式创新,针对生成式微调、判别式微调,以及强化学习分别提出了不同的微调训练策略。其中,创新性地设计针对医疗特性的基于规则奖励的强化学习框架(RBRs-RL),通过动态难度校准、Token级梯度优化和超长奖励塑造策略改进了GRPO算法的效率和性能,同时结合提出的策略轮动数据增强迭代训练(SRADIT)策略,实现了强化微调性能上限的提升。此外,本文还系统比较了生成式与判别式微调在中文诊断ICD编码任务中的性能边界,同时构建了端到端的临床决策优化框架,为奖励微调提供有效路径。并且针对推理阶段,本文设计了一种温度调节集成共识预测方法(TCECP),提升了推理的稳定性和可靠性。最后基于Qwen2.5-7B模型的微调实验结果表明,通过本文提出的优化后的RBR-R1式强化微调方法,在CCL25-Eval任务朸的A榜和B榜分别取得80.98和82.33的优异成绩,其效果显著超越传统SFT的性能上限。综上所述,本文的探索与发现为医疗诊断编码系统的实际应用提供了重要的技术参考。”</abstract>
<identifier type="citekey">you-etal-2025-ccl25</identifier>
<location>
<url>https://aclanthology.org/2025.ccl-2.38/</url>
</location>
<part>
<date>2025-08</date>
<extent unit="page">
<start>322</start>
<end>330</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T CCL25-Eval任务8系统报告:基于规则奖励与自主思考强化学习的中文电子病历ICD诊断编码探索
%A You, Zou
%A Zhang, Lei
%A Liang, Xiaodong
%A Mo, Kundong
%A Guozitao, Guozitao
%A Wei, Feng
%A Wang, Chenzi
%Y Lin, Hongfei
%Y Li, Bin
%Y Tan, Hongye
%S Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025)
%D 2025
%8 August
%I Chinese Information Processing Society of China
%C Jinan, China
%F you-etal-2025-ccl25
%X “世界卫生组织国际疾病分类ICD诊断编码的自动生成是医疗信息化的核心挑战,面临主诊断单标签分类准确性不足、其他诊断多标签预测不完整以及长尾分布等技术瓶颈。本文系统研究探索了大语言模型在中文电子病历ICD诊断编码任务中的微调范式创新,针对生成式微调、判别式微调,以及强化学习分别提出了不同的微调训练策略。其中,创新性地设计针对医疗特性的基于规则奖励的强化学习框架(RBRs-RL),通过动态难度校准、Token级梯度优化和超长奖励塑造策略改进了GRPO算法的效率和性能,同时结合提出的策略轮动数据增强迭代训练(SRADIT)策略,实现了强化微调性能上限的提升。此外,本文还系统比较了生成式与判别式微调在中文诊断ICD编码任务中的性能边界,同时构建了端到端的临床决策优化框架,为奖励微调提供有效路径。并且针对推理阶段,本文设计了一种温度调节集成共识预测方法(TCECP),提升了推理的稳定性和可靠性。最后基于Qwen2.5-7B模型的微调实验结果表明,通过本文提出的优化后的RBR-R1式强化微调方法,在CCL25-Eval任务朸的A榜和B榜分别取得80.98和82.33的优异成绩,其效果显著超越传统SFT的性能上限。综上所述,本文的探索与发现为医疗诊断编码系统的实际应用提供了重要的技术参考。”
%U https://aclanthology.org/2025.ccl-2.38/
%P 322-330
Markdown (Informal)
[CCL25-Eval任务8系统报告:基于规则奖励与自主思考强化学习的中文电子病历ICD诊断编码探索](https://aclanthology.org/2025.ccl-2.38/) (You et al., CCL 2025)
ACL
- Zou You, Lei Zhang, Xiaodong Liang, Kundong Mo, Guozitao Guozitao, Feng Wei, and Chenzi Wang. 2025. CCL25-Eval任务8系统报告:基于规则奖励与自主思考强化学习的中文电子病历ICD诊断编码探索. In Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025), pages 322–330, Jinan, China. Chinese Information Processing Society of China.