O ajuste fino personalizado do Whisper melhora o ASR para fala disártrica

Um estudo demonstra que adaptar modelos base de reconhecimento automático de fala (ASR) a falantes individuais pode melhorar significativamente o desempenho na fala disártrica, que é frequentemente mal tratada por sistemas padrão. Os pesquisadores construíram um sistema personalizado usando a ferramenta TEQST para coletar 92 horas de fala lida e 8,8 horas de correções de usuários de um aplicativo móvel.

O ajuste fino do Whisper com apenas 1,4 hora de dados de adaptação reduziu a taxa de erro de palavras para 15,8%.
O desempenho melhorou para 10,7% ao usar 22,5 horas de dados.
O melhor resultado de 9,7% foi alcançado incorporando todos os dados disponíveis, incluindo correções de usuários.
Usar a adaptação LoRA ou Qwen3-ASR como modelo base resultou em piores resultados neste cenário específico.

As descobertas indicam que o ajuste fino personalizado torna os modelos ASR base substancialmente mais eficazes para fala disártrica e adequados para implantação prática.