Le réglage fin personnalisé de Whisper améliore la reconnaissance automatique de la parole pour les discours dysarthriques

Une étude démontre qu'adapter des modèles de reconnaissance automatique de la parole (ASR) de base à des locuteurs individuels peut améliorer significativement les performances sur les discours dysarthriques, souvent mal gérés par les systèmes standards. Les chercheurs ont construit un système personnalisé en utilisant l'outil TEQST pour collecter 92 heures de parole lue et 8,8 heures de corrections utilisateur depuis une application mobile.

Le réglage fin de Whisper avec seulement 1,4 heure de données d'adaptation a réduit le taux d'erreur mot (WER) à 15,8 %.
Les performances se sont améliorées jusqu'à 10,7 % en utilisant 22,5 heures de données.
Le meilleur résultat de 9,7 % a été obtenu en incorporant toutes les données disponibles, y compris les corrections utilisateur.
L'utilisation de l'adaptation LoRA ou de Qwen3-ASR comme modèle de base a donné de pires résultats dans ce contexte spécifique.

Ces résultats indiquent que le réglage fin personnalisé rend les modèles ASR de base considérablement plus efficaces pour la parole dysarthrique et adaptés au déploiement pratique.