قام المستخدم fairydreaming بدمج طلبات السحب إلى فرع llama.cpp الخاص به لتمكين دعم ذاكرة التخزين المؤقت للقيم الرئيسية (KV) المكمّأة لنموذج DeepSeek V4. تتضمن التغييرات إصلاحات من طلبات السحب #25247 و #25303 و #25202، مع تجاهل بعض تعديلات الحشو.

  • تدعم التنفيذ أنواع التكمئة Q8_0 و Q4_0 لـ KV caches.
  • أظهرت اختبارات الارتباك (Perplexity) على WikiText-2 تدهوراً طفيفاً مقارنةً بالأساس f16.
  • كانت درجات الارتباك النهائية 4.0242 لـ f16، و 4.0304 لـ Q8_0، و 4.0512 لـ Q4_0.

تسمح هذه التحديثات للمستخدمين بتشغيل DeepSeek V4 باستخدام ذاكرة أقل عبر مخازن مؤقتة مكمّأة مع الحفاظ على أداء قريب من نموذج الدقة الكاملة.