एक डेवलपर ने CUDA kernel लागू किया और DSA lightning indexer को llama.cpp में जोड़ा, जिससे RTX 5090 जैसे उपभोक्ता हार्डवेयर पर पूर्ण 1M टोकन संदर्भ के साथ DeepSeek V4 Flash मॉडल का स्थानीय इनफरेंस सक्षम हुआ।

  • पैच 256K संदर्भ पर कंप्यूट बफर आवश्यकताओं को ~67 GiB से 3.2 GiB तक कम करता है और केवल 3.75 GiB VRAM के साथ 1M संदर्भ उपयोग की अनुमति देता है।
  • Prefill गति में महत्वपूर्ण वृद्धि होती है, जो 256K संदर्भ पर ~263 tok/s तक पहुंचती है, जबकि पिछली गति 56 tok/s थी।
  • सटीकता की जांच 100K, 512K और 1M टोकन दस्तावेजों में 10%, 50% और 90% गहराई पर needle-in-haystack टेस्ट का उपयोग करके की गई थी।
  • बदलाव एक कस्टम ब्रांच में उपलब्ध हैं जिसमें build निर्देश शामिल हैं, क्योंकि कोई प्रीबिल्ट बाइनरी प्रदान नहीं की गई है।

यह कार्य उपयोगकर्ताओं को स्थानीय रूप से बड़े संदर्भ वाले DeepSeek V4 Flash को चलाने की अनुमति देता है, बिना अत्यधिक मात्रा में VRAM की आवश्यकता के।