CHERRY: خبراء هرميين مضغوطين مع عائد تمثيلي متكرر

يقدم المقال CHERRY-1.8B، وهو نموذج أساسي كوري يدمج ثلاث تقنيات لتدريب نماذج لغوية فعالة من حيث الحوسبة: الإشراف الانتقائي، وضغط العمق مع الاستعادة المتكررة، ودمج الخبراء المضغوطين.

يركز تدريب رموز الحقيقة الانتقائية (SGT) الإشراف على حوالي 15٪ من رموز الإخراج، مما يحقق كفاءة لكل رمز خاضع للإشراف بمقدار 4.5x مع تحسين الرموز غير الخاضعة للإشراف من خلال اقتران التدرج. يقلل ضغط العمق محولًا مكونًا من 48 طبقة و1 مليار معامل إلى 6 طبقات (227 مليون معامل)، والذي يتم استعادته عبر التفاف متكرر مُعلَّم ليصل إلى فقدان قدره 2.934، وهو ما يقابل نموذجًا كثيفًا مكونًا من 566 مليون معامل. يؤدي تجميع النماذج المضغوطة كمزيج من الخبراء الفعالين (MoEE) مع التنبؤ متعدد الرموز إلى تحسين الأداء أكثر، محققًا فقدانًا قدره 2.789.

يُؤكد المؤلفون على صحة هذه التقنيات على CHERRY-1.8B، مشيرين إلى أن كل معامل قابل للتدريب مشتق من عمليات التدريب الخاصة بهم ويحددون نطاق الأدلة صراحةً بأنه محدود لعائلة نموذج واحدة وبيانات كورية.