مختبر SJTU-DENG-Lab يقترح نماذج لغوية انتشارية متعددة الكتل مع فرض معلم متعدد الكتل

يقدم باحثو مختبر SJTU-DENG-Lab نماذج اللغة الانتشارية متعددة الكتل (MBD-LMs) لتوسيع نماذج الانتشار ذات الكتلة الواحدة من خلال فك تشفير مجموعة متسلسلة من الكتل بشكل متزامن لتحقيق التوازي بين الكتل. تستخدم هذه الطريقة فرض المعلم متعدد الكتل (MultiTF) أثناء التدريب اللاحق لسد الفجوة بين حالات التدريب والاستدلال، بالإضافة إلى خوارزمية فك تشفير محسّنة تعتمد على آلية مخزن الكتل.

تستفيد MBD-LMs من فرض المعلم متعدد الكتل للتدريب على مجموعات ضوضاء محدودة مشروطة ببادئات نظيفة مع جدولة ضوضاء عشوائية.
تحافظ آلية مخزن الكتل على إعادة استخدام ذاكرة البادئة وتبقي أشكال الإدخال ثابتة لتحويل التوازي إلى تسريع في الوقت الفعلي.
يزيد MBD-LLaDA2-Mini من متوسط عدد الرموز لكل تمرير أمامي (TPF) من 3.47 إلى 6.19 ويحسن الدقة المتوسطة من 79.95% إلى 81.03%.
عند دمجه مع DMax، يحقق MBD-LLaDA2-Mini-DMax متوسط TPF يبلغ 9.34 مع انخفاض في الدقة بنسبة 1.02% فقط على معايير الرياضيات والبرمجة.

تتيح هذه الدراسة التنفيذ العملي للانتشار متعدد الكتل من خلال مواءمة توزيعات التدريب مع حالات الاستدلال مع تعزيز معدل فك التشفير بشكل كبير.