Luyang Li

2025

言行不一:大语言模型决策中的隐性偏见
林莘茹林莘茹 | Luyang Li | Xiangting Liu
Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025)

"大语言模型的隐性偏见会隐蔽地影响模型的决策过程,使其在应用中难以保证公平性。本文首先构建基于决策的提示数据集进行隐性偏见评估,实验结果表明性能强的大语言模型可能表现出更严重的隐性偏见。进而为了缓解模型的隐性偏见,本文探索了自我反思和模型编辑两类方法。实验发现前者有助于识别隐性偏见,但无法在回答中去偏。在模型编辑实验中通过构建纠偏数据集,得出对模型后四层进行微调可获得最佳去偏效果,这一结论显示出有限参数调整在缓解隐性偏见方面的潜力。"

Co-authors

Xiangting Liu 1
林莘茹林莘茹 1

Venues

CCL1

Fix author