تُظهر دراسة أن تكييف نماذج التعرف التلقائي على الكلام (ASR) الأساسية مع متحدثين فرديين يمكن أن يحسن الأداء بشكل كبير على كلام عسر التلفيق، والذي غالباً ما تتعامل معه الأنظمة القياسية بشكل سيء. بنى الباحثون نظاماً مخصصاً باستخدام أداة TEQST لجمع 92 ساعة من الكلام المقروء و8.8 ساعات من تصحيحات المستخدم من تطبيق جوال.
- أدى ضبط Whisper الدقيق باستخدام 1.4 ساعة فقط من بيانات التكيف إلى تقليل معدل خطأ الكلمات (WER) إلى 15.8%.
- تحسن الأداء ليصل إلى 10.7% عند استخدام 22.5 ساعة من البيانات.
- تم تحقيق أفضل نتيجة بنسبة 9.7% عن طريق دمج جميع البيانات المتاحة، بما في ذلك تصحيحات المستخدم.
- أدى استخدام تكيف LoRA أو Qwen3-ASR كنموذج أساسي إلى نتائج أسوأ في هذا الإعداد المحدد.
تشير النتائج إلى أن الضبط الدقيق المخصص يجعل نماذج ASR الأساسية أكثر فعالية بشكل كبير لكلام عسر التلفيق ومناسبة للنشر العملي.