Yu-Lin Xiao


2025

pdf bib
A Multi-Module Error Detection and Correction System for Hakka ASR
Min-Chun Hu | Yu-Lin Xiao | Wen-Hsiang Lu
Proceedings of the 37th Conference on Computational Linguistics and Speech Processing (ROCLING 2025)

本研究提出一個針對客語(以大埔/詔安腔為主)的自動語音辨識(ASR)後矯正系統,旨在解決低資源語言辨識錯誤率偏高的問題。客語因受限於語料規模、異體字與腔調差異,在既有的通用 ASR 模型上表現往往不佳。為此,我們首先以 Whisper Large v3 Turbo 為基底辨識模型,使用約 60 小時的大埔與詔安語料進行微調,以提升對特定腔調的適應性。在獲取 ASR N-best 候選句後,系統進一步透過多模組錯誤偵測矯正流程進行修正,包含四個主要步驟: (1) 潛在錯誤偵測,用於鎖定候選間錯誤的候選詞彙;(2) 音素混淆集偵測(Phoneme Confusion Set): 依據音素相近關係提供可能替代詞;(3) 辭典(Lexicon)修正: 確保詞彙存在於語言使用的實際範疇中,(4) 搭配詞關聯度偵測: 利用收集之語料所建立的搭配詞關聯度來偵測錯誤詞彙。本研究所提出的矯正機制能有效補足 ASR 在低資源語言中的不足,實驗顯示經過多階段錯誤偵測矯正後,最終CER減少至 15.49%,減少 2.14 % ,證明該方法能有效提升語音辨識的準確率。