llama.cpp में DeepSeek V4 Pro के प्रदर्शन अपडेट

एक उपयोगकर्ता ने विभिन्न ठीक करने और अनुकूलन वाले एक कस्टम llama.cpp ब्रांच के माध्यम से स्थानीय रूप से चलने वाले DeepSeek V4 Pro के लिए बढ़े हुए प्रदर्शन की रिपोर्ट की है। लेख में RTX PRO 6000 Max-Q वाले Epyc 9374F सिस्टम से बाइसमार्क परिणाम साझा किए गए हैं, जहाँ मुख्य बिल्ड्स में मॉडल का मेमोरी उपयोग उच्च बना हुआ है।

12 x 96GB DDR5 RAM और 96GB VRAM वाले हार्डवेयर पर 794GB GGUF फ़ाइल का उपयोग करके बाइसमार्क टेस्ट किए गए।
कस्टम ब्रांच ने lightning indexer कंप्यूट बफर्स और CUDA top-k अस्थायी बफर्स के कारण होने वाले अत्यधिक मेमोरी खपत की समस्याओं को हल किया है।
मुख्य llama.cpp में वर्तमान में क्वांटाइज्ड KV कैश समर्थन टूटा हुआ है और प्रॉम्प्ट कैश पुन: उपयोग व बैच तैयारी के संबंध में संभावित बग हैं।

लेखक ने उल्लेख किया है कि जबकि उनके विशिष्ट अनुकूलन गति में सुधार करते हैं, मुख्य llama.cpp पर निर्भर उपयोगकर्ता महत्वपूर्ण मेमोरी ओवरहेड और कार्यात्मक बगों का सामना कर सकते हैं।