fairydreaming يدمج إصلاحات ذاكرة التخزين المؤقت KV المكمّأة لـ DeepSeek V4 في llama.cpp

قام المستخدم fairydreaming بدمج طلبات السحب إلى فرع llama.cpp الخاص به لتمكين دعم ذاكرة التخزين المؤقت للقيم الرئيسية (KV) المكمّأة لنموذج DeepSeek V4. تتضمن التغييرات إصلاحات من طلبات السحب #25247 و #25303 و #25202، مع تجاهل بعض تعديلات الحشو.

تدعم التنفيذ أنواع التكمئة Q8_0 و Q4_0 لـ KV caches.
أظهرت اختبارات الارتباك (Perplexity) على WikiText-2 تدهوراً طفيفاً مقارنةً بالأساس f16.
كانت درجات الارتباك النهائية 4.0242 لـ f16، و 4.0304 لـ Q8_0، و 4.0512 لـ Q4_0.

تسمح هذه التحديثات للمستخدمين بتشغيل DeepSeek V4 باستخدام ذاكرة أقل عبر مخازن مؤقتة مكمّأة مع الحفاظ على أداء قريب من نموذج الدقة الكاملة.