Seorang pengguna mendemonstrasikan bahwa model Gemma-4-31B-it dapat menangani jendela konteks 80.000 token pada GPU RTX 5090 menggunakan llama.cpp, peningkatan signifikan dari batas tipikal 35k.
Konfigurasi ini memerlukan flag Docker tertentu agar berfungsi dengan benar, termasuk mengatur `GGML_CUDA_NO_PINNED=1` dan mengaktifkan `--backend-sampling --parallel 1`. Pengaturan ini juga memanfaatkan `--flash-attn on` dan menetapkan ukuran konteks secara eksplisit melalui `--ctx-size 80000`.
Metode ini memungkinkan pengguna memperpanjang panjang konteks untuk model Gemma-4 melampaui batasan standar dengan menerapkan tweak konfigurasi yang sebelumnya dicatat untuk arsitektur lain.