Whisperのパーソナライズドファインチューニングが構音障害者の音声認識を向上

基礎的な自動音声認識（ASR）モデルを個々の話者に適応させることで、標準システムでは扱いにくい構音障害者の音声に対する性能を大幅に向上できることを示す研究がある。研究者はTEQSTツールを使用して、読み上げ音声92時間分とユーザーの修正8.8時間分をモバイルアプリから収集し、パーソナライズドシステムを構築した。

適応データ1.4時間のみでWhisperをファインチューニングした結果、単語誤り率（WER）は15.8%に低下した。
データ22.5時間を使用すると、性能は10.7%に向上した。
ユーザーの修正を含むすべての利用可能なデータを活用することで、9.7%という最良の結果が得られた。
この特定の環境では、LoRA適応やQwen3-ASRを基盤モデルとして使用すると、より悪い結果となった。

これらの知見は、パーソナライズドファインチューニングにより基礎ASRモデルが構音障害者の音声に対して大幅に効果的になり、実用的な展開に適していることを示している。