Seorang pengembang menguraikan rencana untuk membangun ulang model Gemma 4 31B dengan mengurangi jumlah parameternya menjadi sekitar 26B sambil bertujuan untuk meningkatkan kinerja. Proyek ini melibatkan perubahan arsitektur, teknik pelatihan khusus, dan kurasi dataset untuk membuat model yang lebih kecil dan efisien.
- Hapus Layer 3, yang diidentifikasi sebagai lapisan terlemah dari lima lapisan attention jendela geser (SWA).
- Skala ulang rentang perhatian SWA menjadi 1024/2048/4096/8.1k token diikuti oleh lapisan global.
- Terapkan "Attention based Residual Networks" di lapisan global untuk meningkatkan aliran informasi dan koherensi global.
- Gunakan logits TopK (12 atau 20) dari model asli sebagai target untuk pelatihan ulang sambil membekukan bagian atas dan bawah jaringan.
- Kurangi total parameter dari ~30.81B menjadi ~26.02B melalui modifikasi struktural ini.
Penulis bermaksud mencapai kemampuan konteks panjang yang lebih baik dan kinerja keseluruhan dalam jejak yang lebih kecil, dengan rencana potensial untuk membuka sensor fase pelatihan "berpikir" model.