llama.cpp की ट्यून्ड सेटिंग्स के साथ RTX 5090 पर Qwen3.6 27B ने 140 tok/s औसत हासिल किया

एक उपयोगकर्ता llama.cpp का उपयोग करके RTX 5090, AMD 9800X3D और 64GB RAM वाले सिस्टम पर Qwen3.6 27B मॉडल चलाने के लिए विस्तृत प्रदर्शन मापदंड साझा करता है।

ट्यूनिंग में q8 KV cache, 192k संदर्भ, MTP draft=10, spec-draft-p-min=0.5 और batch/ubatch 512 शामिल थे।
मिश्रित एजेंटिक कोडिंग सत्र के दौरान 6,454 नमूनों का विश्लेषण करने पर औसत थ्रूपुट 140.7 tok/s और मध्यिका 134.9 tok/s पाई गई।
शीर्ष प्रदर्शन 120-130 tok/s की सीमा में पहुँचा, जिसका लंबा पूंछ 233 tok/s तक फैला हुआ था।
लेखक ने नोट किया कि llama.cpp में हाइब्रिड एटेंशन/SWA कैश हैंडलिंग इस मॉडल के लिए अभी पूर्ण नहीं है, जिससे प्रॉम्प्ट रीप्रोसेसिंग चेतावनियाँ उत्पन्न होती हैं।

पोस्ट यह उजागर करती है कि औसत संख्याएँ प्रदर्शन में भिन्नताओं को छुपा सकती हैं, और केवल एक हेडलाइन अंक के बजाय गति का वास्तविक वितरण प्रदान करती हैं।