एक Reddit उपयोगकर्ता ने रिपोर्ट किया कि वह RTX 3060 पर 12GB VRAM के साथ RAM ऑफलोड का उपयोग करके Qwen3.6 27B मॉडल को Q4 क्वांटीकरण में चला रहा है, और इन्फरेंस के दौरान DRAM बैंडविड्थ केवल लगभग 30GB/s होने की नोटिस देता है।
- उपयोगकर्ता ने 18K टोकन संदर्भ के साथ प्रति सेकंड 3.12 टोकन की थ्रूपुट प्राप्त की, यह सवाल उठाते हुए कि क्या बॉटलनेक LM Studio के कार्यान्वयन में है या उनके CPU हार्डवेयर में।
- Q8 KV कैश और 37 GPU ऑफलोड परतों का उपयोग करके छोटे प्रॉम्प्ट और 4 CPU थ्रेड्स के साथ परीक्षण करने से थ्रूपुट बढ़कर प्रति सेकंड 4.95 टोकन हो गया, जबकि 30-35GB/s बैंडविड्थ बनाए रखी गई।