fairydreaming ने llama.cpp में DeepSeek V4 के लिए क्वांटाइज्ड KV कैश फिक्स को मर्ज किया

उपयोगकर्ता fairydreaming ने DeepSeek V4 मॉडल के लिए क्वांटाइज्ड की-वैल्यू (KV) कैश समर्थन सक्षम करने के लिए अपने llama.cpp ब्रांच में पुल रिक्वेस्ट्स को मर्ज किया है। परिवर्तनों में PRs #25247, #25303, और #25202 से फिक्स शामिल हैं, जिनमें कुछ पैडिंग समायोजन छोड़ दिए गए हैं।

कार्यान्वयन KV कैश के लिए Q8_0 और Q4_0 क्वांटाइजेशन प्रकारों का समर्थन करता है।
WikiText-2 पर प्लेक्सिटी टेस्ट f16 बेलाइन की तुलना में न्यूनतम क्षति दिखाते हैं।
अंतिम प्लेक्सिटी स्कोर f16 के लिए 4.0242, Q8_0 के लिए 4.0304, और Q4_0 के लिए 4.0512 थे।

ये अपडेट उपयोगकर्ताओं को क्वांटाइज्ड कैश के माध्यम से कम मेमोरी उपयोग के साथ DeepSeek V4 चलाने की अनुमति देते हैं, जबकि पूर्ण प्रेसिजन मॉडल के करीब प्रदर्शन बनाए रखते हैं।