El ajuste fino personalizado de Whisper mejora el reconocimiento automático del habla para el habla disártrica

Un estudio demuestra que adaptar modelos base de reconocimiento automático del habla (ASR) a hablantes individuales puede mejorar significativamente el rendimiento en el habla disártrica, la cual es frecuentemente manejada mal por los sistemas estándar. Los investigadores construyeron un sistema personalizado utilizando la herramienta TEQST para recopilar 92 horas de lectura en voz alta y 8,8 horas de correcciones de usuarios desde una aplicación móvil.

El ajuste fino de Whisper con solo 1,4 horas de datos de adaptación redujo la tasa de error de palabras al 15,8%.
El rendimiento mejoró al 10,7% al utilizar 22,5 horas de datos.
El mejor resultado del 9,7% se logró incorporando todos los datos disponibles, incluidas las correcciones de usuarios.
Utilizar la adaptación LoRA o Qwen3-ASR como modelo base arrojó peores resultados en este entorno específico.

Los hallazgos indican que el ajuste fino personalizado hace que los modelos ASR base sean sustancialmente más efectivos para el habla disártrica y adecuados para su implementación práctica.