أظهر مستخدم أن نموذج Gemma-4-31B-it يمكنه التعامل مع نافذة سياق مكونة من 80,000 رمز على وحدة معالجة الرسومات RTX 5090 باستخدام llama.cpp، وهو زيادة كبيرة عن الحد المعتاد البالغ 35k.

تتطلب التكوين أعلام Docker محددة ليعمل بشكل صحيح، بما في ذلك تعيين `GGML_CUDA_NO_PINNED=1` وتمكين `--backend-sampling --parallel 1`. يستخدم الإعداد أيضًا `--flash-attn on` ويحدد حجم السياق صراحةً عبر `--ctx-size 80000`.

تتيح هذه الطريقة للمستخدمين تمديد طول السياق لنماذج Gemma-4 بما يتجاوز القيود القياسية من خلال تطبيق تعديلات التكوين التي تم ملاحظتها سابقًا لهندسات أخرى.