Seorang pengguna Reddit telah memperluas model Google Gemma4-31B menjadi sekitar 47 miliar parameter dengan meningkatkan jumlah lapisan dari 60 menjadi 88. Proses ini melibatkan ekspansi identity-init yang mengikuti pendekatan LLaMA Pro, diikuti oleh fine-tuning pada data hukum dan STEM Korea.

  • Memperluas Gemma4-31B dari 60 menjadi 80 lapisan menggunakan identity-init dengan perbaikan layer_scalar tertentu.
  • Melakukan ekspansi duplikasi blok kedua dari 80 menjadi 88 lapisan pada model yang sudah di-fine-tune.
  • Melakukan fine-tuning pada model hasil sekitar 47B parameter pada dataset hukum dan STEM Korea.
  • Memverifikasi bahwa lapisan full-attention yang diduplikasi secara aktif berkontribusi pada pelatihan daripada tetap tidak aktif.

Penulis membagikan detail arsitektur dan kartu model di Hugging Face, mencatat potensi awal untuk kasus penggunaan hukum dan STEM sambil mencari bantuan komunitas untuk meningkatkan kemampuan coding dan tool-calling.