Seorang pengguna Reddit telah memperluas model Google Gemma 4 31B, yang memiliki 60 lapisan, menjadi versi parameter 44B yang lebih besar yang berisi 88 lapisan. Modifikasi ini dilakukan karena Google belum merilis versi padat yang lebih besar dari model tersebut untuk digunakan di Lyzr Architect.
- Ekspansi meningkatkan jumlah lapisan dari 60 menjadi 88 menggunakan strategi penskalaan khusus Gemma yang terinspirasi oleh LLaMA Pro.
- Lapisan baru diinisialisasi menggunakan pengetahuan dari model dasar dan pola struktural yang dipelajari selama pelatihan.
- Hasil awal menunjukkan bahwa model yang diperluas mempertahankan identitas aslinya sambil mendapatkan kapasitas tambahan.
Penulis mencatat bahwa pengujian lebih lanjut diperlukan untuk mengamati bagaimana model berperilaku ketika konteks menumpuk.