يقترح الباحثون SpeechCombine، وهو نموذج لغوي صوتي يتبع التعليمات تم تدريبه بدون ضبط للتعليمات عن طريق دمج فرق أوزان نموذج LLM النصي مع الأوزان المتكيفة للصوت.

  • تستخدم الطريقة جولة واحدة فقط من التدريب المسبق الصوتي على 30k ساعة من البيانات.
  • تبدأ من نموذج أساسي لـ LLM نصي وتقوم بتدريب مسبق مستمر على نطق صوتي.
  • تجمع النهج مباشرة بين الأوزان المتكيفة للصوت والفرق بين إصدارات LLM النصية التي خضعت لضبط التعليمات والنسخة الأساسية لـ LLM النصي.
  • تظهر النتائج أن الاستراتيجية تحافظ على معرفة LLM النصي الأصلية مع نقل القدرات بشكل فعال إلى مجال الصوت.

تشير هذه النتيجة إلى اتجاه جديد لتدريب SLM يتجنب الاعتماد على كميات هائلة من بيانات الصوت.