一项研究表明,将基础自动语音识别(ASR)模型适配到个体说话人,可以显著改善对构音障碍语音的处理效果,而标准系统通常对此类语音处理不佳。研究人员使用TEQST工具构建了一个个性化系统,收集了92小时的朗读语音和来自移动应用的8.8小时用户修正数据。
- 仅使用1.4小时适配数据对Whisper进行微调,将词错误率降低至15.8%。
- 使用22.5小时数据时,性能提升至10.7%。
- 通过纳入所有可用数据(包括用户修正),取得了9.7%的最佳结果。
- 在此特定设置下,使用LoRA适配或Qwen3-ASR作为基础模型产生了更差的结果。
研究结果表明,个性化微调使基础ASR模型对构音障碍语音显著更有效,并适合实际部署。