قدمت NAVER LABS Europe نظامًا لمسار معالجة الكلام القصير باتباع التعليمات في IWSLT 2026، محققةً تعادلًا للمركز الأول في الترتيب العام. طور الفريق أنظمة قادرة على أداء ASR وST وSQA بشكل مشترك من الكلام الإنجليزي إلى الصينية والإيطالية والألمانية.

  • استبدلت مشروع الصوت السابق بـ SpeechMapper، الذي يتعلم مشروع تضمين من الكلام إلى LLM باستخدام بيانات ASR فقط.
  • قدمت fakACL، وهو مجموعة بيانات SQA اصطناعية تتكون من عروض تقديمية علمية مولدة اصطناعيًا تم بناؤها عن طريق مطالعة backbone LLM ودمج الكلام باستخدام SeamlessM4T-large-v2.
  • يسمح مزيج تحسين إسقاط الصوت والبيانات الاصطناعية الخاصة بالنطاق للنموذج بتفوق النظام الأفضل العام الماضي مع كونه أكثر إحكامًا ويعتمد على backbone LLM أضعف.

يعتبر المؤلفون هذا الأمر مهمًا لأن خط أنابيب التدريب متعدد المراحل المحدث الخاص بهم يتيح أداءً متفوقًا مع متطلبات موارد أقل مقارنة بالأنظمة المتقدمة السابقة.