एक उपयोगकर्ता ने प्रदर्शित किया कि Gemma-4-31B-it मॉडल llama.cpp का उपयोग करके RTX 5090 GPU पर 80,000-टोकन संदर्भ विंडो को संभाल सकता है, जो सामान्य 35k सीमा से एक महत्वपूर्ण वृद्धि है।

सही ढंग से काम करने के लिए कॉन्फ़िगरेशन में विशिष्ट Docker फ्लैग की आवश्यकता होती है, जिसमें `GGML_CUDA_NO_PINNED=1` सेट करना और `--backend-sampling --parallel 1` सक्षम करना शामिल है। सेटअप `--flash-attn on` का भी उपयोग करता है और `--ctx-size 80000` के माध्यम से संदर्भ आकार को स्पष्ट रूप से सेट करता है।

यह विधि उपयोगकर्ताओं को अन्य आर्किटेक्चर के लिए पहले नोट किए गए कॉन्फ़िगरेशन ट्वीक्स लागू करके Gemma-4 मॉडल के लिए संदर्भ लंबाई को मानक बाधाओं से परे बढ़ाने की अनुमति देती है।