NAVER LABS Europe ने IWSLT 2026 में निर्देश-अनुसरण वॉयस प्रोसेसिंग शॉर्ट ट्रैक के लिए एक सिस्टम जमा किया, जिसने सामान्य रैंकिंग में पहले स्थान पर बराबरी हासिल की। टीम ने अंग्रेजी वॉयस से चीनी, इतालवी और जर्मन में ASR, ST, और SQA को संयुक्त रूप से करने में सक्षम सिस्टम विकसित किए।

  • पिछले वॉयस प्रोजेक्टर को SpeechMapper से बदल दिया, जो केवल ASR डेटा का उपयोग करके वॉयस-to-LLM एम्बेडिंग प्रोजेक्टर सीखता है।
  • fakACL पेश करता है, एक संश्लेषित SQA डेटासेट जो कृत्रिम रूप से उत्पन्न वैज्ञानिक प्रस्तुतियों से बना है, जिसे LLM backbone को प्रॉम्प्ट करके और SeamlessM4T-large-v2 के साथ वॉयस संश्लेषित करके बनाया गया था।
  • सुधारे गए वॉयस प्रोजेक्शन और डोमेन-विशिष्ट संश्लेषित डेटा का संयोजन मॉडल को पिछले वर्ष के सर्वश्रेष्ठ सिस्टम से बेहतर प्रदर्शन करने की अनुमति देता है, जबकि यह अधिक कॉम्पैक्ट है और एक कमजोर LLM backbone पर निर्भर है।

लेखकों का मानना है कि यह महत्वपूर्ण है क्योंकि उनके अपडेटेड मल्टी-स्टेज ट्रेनिंग पाइपलाइन ने पिछले SOTA सिस्टम की तुलना में कम संसाधन आवश्यकताओं के साथ श्रेष्ठ प्रदर्शन सक्षम बनाया है।