Сравнение человеческого и автоматического распознавания непрерывной нидерландской дизартрической речи: исследование случая

В данном исследовании сравнивалась производительность распознавания человеческих слушателей с тремя современными готовыми системами ASR (Whisper-large-V3, Google Chirp 3 и Omnilingual) на непрерывной читаемой и спонтанной нидерландской речи одного говорящего с тяжелой дизартрией.

Как человеческие слушатели, так и три системы ASR показали среднюю ошибку в словах (WER), превышающую 70% на немодифицированных данных.
Дообучение моделей на дизартрической речи значительно снизило WER, хотя общие показатели оставались выше 23%.
Персонализированные модели DSR превзошли человеческих слушателей, достигнув уровня, полезного для поддержки повседневного общения.

Выводы указывают на то, что, хотя распознавание дизартрической речи крайне затруднительно, персонализированные модели предлагают жизнеспособный путь к поддержке ежедневного общения для говорящих с тяжелой дизартрией.