قام مطوّر بتنفيذ نواة CUDA وربط مؤشر DSA lightning داخل llama.cpp، مما يتيح الاستدلال المحلي لنموذج DeepSeek V4 Flash بسياق كامل يتكون من 1M توكن على عتاد المستهلك مثل RTX 5090.

  • يقلل التصحيح متطلبات ذاكرة التخزين المؤقت للحوسبة من ~67 GiB إلى 3.2 GiB عند سياق 256K ويسمح باستخدام سياق 1M بـ 3.75 GiB VRAM فقط.
  • تزداد سرعات التعبئة المسبقة بشكل ملحوظ، لتصل إلى ~263 tok/s عند سياق 256K مقارنةً بـ 56 tok/s سابقاً.
  • تم التحقق من الدقة باستخدام اختبارات needle-in-haystack عند أعماق 10% و50% و90% عبر مستندات تتكون من 100K و512K و1M توكن.
  • التغييرات متوفرة في فرع مخصص مع تعليمات البناء، حيث لا توجد ثنائيات جاهزة مُقدَّمة.

يُتيح هذا العمل للمستخدمين تشغيل DeepSeek V4 Flash بسياق كبير محلياً دون الحاجة إلى كميات هائلة من VRAM.