يوضح مطور خطة لإعادة بناء نموذج Gemma 4 31B عن طريق تقليل عدد معاملاته إلى حوالي 26 مليار مع السعي لتحسين الأداء. يتضمن المشروع تغييرات في البنية، وتقنيات تدريب محددة، وتنقية مجموعات البيانات لإنشاء نموذج أصغر وأكثر كفاءة.
- إزالة الطبقة 3، التي تم تحديدها كأضعف طبقات الانتباه ذات النافذة المنزلقة (SWA) الخمس.
- إعادة قياس نطاقات انتباه SWA إلى 1024/2048/4096/8.1k رمز متبوعة بطبقة عالمية.
- تنفيذ "شبكات التباين القائمة على الانتباه" في الطبقات العالمية لتحسين تدفق المعلومات والتماسك العالمي.
- استخدام logits TopK (12 أو 20) من النموذج الأصلي كأهداف لإعادة التدريب مع تجميد الجزء العلوي والسفلي من الشبكة.
- تقليل إجمالي المعاملات من حوالي 30.81 مليار إلى حوالي 26.02 مليار من خلال هذه التعديلات الهيكلية.
ينوي المؤلف تحقيق قدرات أفضل للسياق الطويل والأداء العام في بصمة أصغر، مع خطط محتملة لإلغاء الرقابة على مرحلة التدريب "التفكير" للنموذج.