Lifei Zhang


2025

"开放域问答通常是从大规模数据中检索多个相关文档,并利用大语言模型对文档内容进行理解生成答案。然而,面向缅甸语、老挝语等低资源语言,检索到的数据可能存在问题无关的噪声文档,且大语言模型对低资源语言理解能力弱,生成答案错误率高。对此,提出一种基于多维度答案筛选的低资源语言开放域问答方法,将现有基于大模型直接理解文档生成答案的过程,转换成多个候选答案生成并筛选的多阶段过程。在答案生成阶段,从文档中抽取多样化的候选答案,在筛选阶段,设计多维度答案筛选策略,通过全局篇章答案验证、局部证据答案验证以及不同答案相关性排序,筛选出最优答案。在四种东南亚低资源语言开放域问答数据集上的实验结果表明,基于GPT-4o-mini、DeepSeek-V3等大语言模型底座,提出方法相比思维链、摘要验证等最优方法都取得了更好的性能,验证了多阶段答案生成筛选过程在低资源开放域问答任务中有效性。"