व्हिस्पर का व्यक्तिगत फाइन-ट्यूनिंग डिसार्थ्रिक वक्त्व के लिए ASR को बेहतर बनाता है

एक अध्ययन दिखाता है कि बुनियादी स्वचलित वक्त्व पहचान (ASR) मॉडलों को व्यक्तिगत वक्ताओं के लिए अनुकूलित करने से डिसार्थ्रिक वक्त्व पर प्रदर्शन में महत्वपूर्ण सुधार हो सकता है, जिसे मानक सिस्टम अक्सर खराब ढंग से संभालते हैं। शोधकर्ताओं ने TEQST टूल का उपयोग करके एक व्यक्तिगत सिस्टम बनाया जिसमें 92 घंटे की पढ़ी हुई वक्त्व और एक मोबाइल ऐप से 8.8 घंटे के उपयोगकर्ता सुधार शामिल हैं।

केवल 1.4 घंटे के अनुकूलन डेटा के साथ व्हिस्पर का फाइन-ट्यूनिंग करने से शब्द त्रुटि दर को 15.8% तक कम किया गया।
22.5 घंटे के डेटा का उपयोग करने पर प्रदर्शन 10.7% तक बेहतर हो गया।
सभी उपलब्ध डेटा, जिसमें उपयोगकर्ता सुधार भी शामिल हैं, को शामिल करके 9.7% का सर्वश्रेष्ठ परिणाम प्राप्त किया गया।
इस विशिष्ट सेटिंग में बुनियादी मॉडल के रूप में LoRA अनुकूलन या Qwen3-ASR का उपयोग करने से खराब परिणाम मिले।

निष्कर्ष संकेत करते हैं कि व्यक्तिगत फाइन-ट्यूनिंग बुनियादी ASR मॉडलों को डिसार्थ्रिक वक्त्व के लिए काफी अधिक प्रभावी बनाती है और व्यावहारिक तैनाती के लिए उपयुक्त बनाती है।