एक उपयोगकर्ता ने विशिष्ट llama.cpp फोर्क का उपयोग करके NVIDIA GeForce RTX 5090 पर चलने के लिए DeepSeek V4 Flash मॉडल को सफलतापूर्वक अनुकूलित किया है। कॉन्फ़िगरेशन कुछ VRAM हेडरूम बनाए रखते हुए 1 मिलियन टोकन संदर्भ विंडो का समर्थन करता है।

  • बेंचमार्क परिणाम दिखाते हैं कि टोकन जनरेशन (TG) थ्रूपुट 22.7 से घटकर 21.3 टोकन/सेकंड हो गया और प्रॉम्प्ट प्रोसेसिंग (PP) थ्रूपुट 1105 से घटकर 927 टोकन/सेकंड हो गया।
  • सेटअप में Q2_K क्वांटाइज्ड GGUF मॉडल, कोई एकीकृत KV कैश नहीं वाला MoE, और n-cpu-moe को 37 पर सेट किया गया है।
  • उपयोगकर्ता ने RTX 5090 की मेमोरी सीमाओं के भीतर फिट होने वाले 512 का अनबैच्ड साइज (ub) उपयोग करके 1 मिलियन संदर्भ आकार प्राप्त किया।
  • अनुकूलन के लिए GitHub उपयोगकर्ता fairydreaming से llama.cpp का एक कस्टम फोर्क और CUDA आर्किटेक्चर 120 के लिए विशिष्ट CMake बिल्ड फ्लैग की आवश्यकता थी।

यह कॉन्फ़िगरेशन दिखाता है कि DeepSeek V4 Flash उपभोक्ता हार्डवेयर पर विशाल संदर्भ विंडो के साथ संचालित हो सकता है, हालांकि बेसलाइन मेट्रिक्स की तुलना में थ्रूपुट कम है।