Персонализированная донастройка Whisper улучшает распознавание речи для дизартрической речи

Исследование показывает, что адаптация базовых моделей автоматического распознавания речи (ASR) к отдельным говорящим может значительно улучшить результаты на дизартрической речи, которую стандартные системы часто обрабатывают плохо. Исследователи создали персонализированную систему с использованием инструмента TEQST для сбора 92 часов зачитанной речи и 8,8 часа пользовательских исправлений из мобильного приложения.

Донастройка Whisper только с 1,4 часа адаптационных данных снизила ошибку распознавания слов до 15,8%.
Производительность улучшилась до 10,7% при использовании 22,5 часов данных.
Лучший результат в 9,7% был достигнут путем включения всех доступных данных, включая пользовательские исправления.
Использование адаптации LoRA или Qwen3-ASR в качестве базовой модели дало худшие результаты в данном конкретном случае.

Выводы указывают на то, что персонализированная донастройка делает базовые модели ASR значительно более эффективными для дизартрической речи и пригодными для практического развертывания.