파운데이션 자동 음성 인식(ASR) 모델을 개별 화자에게 적응시키면 표준 시스템에서 처리가 어려운 구음 장애 음성에 대한 성능을 크게 향상시킬 수 있음을 보여주는 연구가 있습니다. 연구자들은 TEQST 도구를 사용하여 모바일 앱에서 92시간의 읽기 음성 데이터와 8.8시간의 사용자 수정 데이터를 수집하고 개인화 시스템을 구축했습니다.

  • 적응 데이터 1.4시간만으로 Whisper를 파인튜닝한 결과 단어 오류율(WER)이 15.8%로 감소했습니다.
  • 22.5시간의 데이터를 사용할 때 성능은 10.7%로 향상되었습니다.
  • 사용자 수정을 포함한 모든 사용 가능한 데이터를 통합했을 때 가장 좋은 결과인 9.7%가 달성되었습니다.
  • 이 특정 설정에서는 LoRA 적응이나 Qwen3-ASR를 파운데이션 모델로 사용하면 더 나쁜 결과가 나왔습니다.

이러한 발견은 개인화 파인튜닝이 파운데이션 ASR 모델을 구음 장애 음성에 대해 훨씬 효과적으로 만들어 실용적인 배포에 적합하게 만든다는 것을 나타냅니다.