Este estudio comparó el rendimiento de reconocimiento de oyentes humanos frente a tres sistemas ASR comerciales de última generación (Whisper-large-V3, Google Chirp 3 y Omnilingual) sobre habla continua leída y espontánea en neerlandés de un solo hablante con disartria severa.

  • Tanto los oyentes humanos como los tres sistemas ASR mostraron tasas de error de palabra (WER) promedio superiores al 70% en los datos sin modificar.
  • El ajuste fino de los modelos con habla disártrica redujo significativamente el WER, aunque las tasas generales se mantuvieron por encima del 23%.
  • Los modelos DSR personalizados superaron a los oyentes humanos, con un rendimiento que se acercó a niveles útiles para apoyar la comunicación cotidiana.

Los hallazgos indican que, si bien el reconocimiento de habla disártrica es altamente desafiante, los modelos personalizados ofrecen una vía viable hacia el apoyo de la comunicación diaria para hablantes con disartria severa.