एक उपयोगकर्ता 32GB VRAM वाले सिस्टम पर Q8_0 क्वांटीकरण में Qwen3.6-27 मॉडल को 115,000 टोकन तक के संदर्भ के साथ चलाने का प्रदर्शन करता है। मॉडल वजन के साथ अलग-अलग कुंजी-मान (KV) कैश क्वांटीकरण स्तरों का परीक्षण करके, उन्होंने llama-server और draft-mtp अनुमानित डिकोडिंग का उपयोग करके स्थिर इनफरेंस प्राप्त किया।
- विकल्प 1 ने 95K संदर्भ का समर्थन करने के लिए Q8_0 KV कैश का उपयोग किया, कोड जनरेशन कार्यों पर 141.6 tok/s की संचित टोकन गति हासिल की।
- विकल्प 2 ने संदर्भ को 105K टोकन तक बढ़ाने के लिए KV कैश को Q5_1 तक कम कर दिया, समान प्रदर्शन बनाए रखते हुए 142.0 tok/s की दर के साथ।
- विकल्प 3 ने 115K संदर्भ प्राप्त करने के लिए KV कैश को और अधिक Q4_0 तक कम कर दिया, जिसके परिणामस्वरूप कोड जनरेशन के लिए 0.6969 की संचित स्वीकृति दर और 138.7 tok/s मिली।
विन्यास उपयोगकर्ताओं को मॉडल वजन सटीकता और KV कैश क्वांटीकरण के बीच संतुलन बनाकर, उपभोक्ता-ग्रेड हार्डवेयर पर सामान्य बाधाओं से काफी परे संदर्भ सीमाओं को बढ़ाने की अनुमति देता है।