مستخدم يوسع نموذج Gemma4-31B إلى 44B عبر تكرار الطبقات

قام مستخدم على موقع Reddit بتوسيع نموذج Google Gemma4-31B ليشمل حوالي 47 مليار معامل عن طريق زيادة عدد الطبقات من 60 إلى 88. تضمنت العملية توسيعًا باستخدام identity-init يتبع نهج LLaMA Pro، يليه ضبط دقيق (fine-tuning) على بيانات القانون والعلوم والتكنولوجيا والهندسة والرياضيات (STEM) الكورية.

تم توسيع Gemma4-31B من 60 إلى 80 طبقة باستخدام identity-init مع إصلاح layer_scalar محدد.
تم إجراء توسع ثانٍ عبر تكرار الكتلة من 80 إلى 88 طبقة على النموذج الذي خضع بالفعل للضبط الدقيق.
تم ضبط النموذج الناتج ذي المعاملات بحوالي 47 مليار (47B) بدقة على مجموعات بيانات القانون والعلوم والتكنولوجيا والهندسة والرياضيات (STEM) الكورية.
تم التحقق من أن الطبقات ذات الانتباه الكامل المكررة ساهمت بنشاط في التدريب بدلاً من البقاء غير نشطة.

يشارك المؤلف تفاصيل البنية وبطاقة النموذج على Hugging Face، مشيرًا إلى الوعد المبكر لحالات الاستخدام القانونية والعلمية والتقنية والهندسية والرياضية (STEM) بينما يسعى لمساعدة المجتمع لتحسين قدرات البرمجة واستدعاء الأدوات.