Penyetelan halus personalisasi Whisper meningkatkan ASR untuk ucapan disartikulasi

Sebuah studi menunjukkan bahwa menyesuaikan model pengenalan suara otomatis (ASR) dasar kepada individu dapat secara signifikan meningkatkan kinerja pada ucapan disartikulasi, yang sering kali ditangani dengan buruk oleh sistem standar. Para peneliti membangun sistem personalisasi menggunakan alat TEQST untuk mengumpulkan 92 jam ucapan bacaan dan 8,8 jam koreksi pengguna dari aplikasi seluler.

Penyetelan halus Whisper hanya dengan 1,4 jam data adaptasi mengurangi word error rate (WER) menjadi 15,8%.
Kinerja meningkat menjadi 10,7% ketika menggunakan 22,5 jam data.
Hasil terbaik sebesar 9,7% dicapai dengan menggabungkan semua data yang tersedia, termasuk koreksi pengguna.
Menggunakan adaptasi LoRA atau Qwen3-ASR sebagai model dasar menghasilkan hasil yang lebih buruk dalam pengaturan spesifik ini.

Temuan tersebut menunjukkan bahwa penyetelan halus personalisasi membuat model ASR dasar jauh lebih efektif untuk ucapan disartikulasi dan cocok untuk penerapan praktis.