Whisper의 개인화 파인튜닝이 구음 장애 음성의 ASR 성능을 향상시킴

파운데이션 자동 음성 인식(ASR) 모델을 개별 화자에게 적응시키면 표준 시스템에서 처리가 어려운 구음 장애 음성에 대한 성능을 크게 향상시킬 수 있음을 보여주는 연구가 있습니다. 연구자들은 TEQST 도구를 사용하여 모바일 앱에서 92시간의 읽기 음성 데이터와 8.8시간의 사용자 수정 데이터를 수집하고 개인화 시스템을 구축했습니다.

적응 데이터 1.4시간만으로 Whisper를 파인튜닝한 결과 단어 오류율(WER)이 15.8%로 감소했습니다.
22.5시간의 데이터를 사용할 때 성능은 10.7%로 향상되었습니다.
사용자 수정을 포함한 모든 사용 가능한 데이터를 통합했을 때 가장 좋은 결과인 9.7%가 달성되었습니다.
이 특정 설정에서는 LoRA 적응이나 Qwen3-ASR를 파운데이션 모델로 사용하면 더 나쁜 결과가 나왔습니다.

이러한 발견은 개인화 파인튜닝이 파운데이션 ASR 모델을 구음 장애 음성에 대해 훨씬 효과적으로 만들어 실용적인 배포에 적합하게 만든다는 것을 나타냅니다.