تقليل ذاكرة التخزين المؤقت KV في llama.cpp لحسابات DeepSeek-V4-Flash بنسبة 3 أضعاف

وجد مستخدم يختبر ملف GGUF الخاص بـ Bartowski لنموذج DeepSeek-V4-Flash-MXFP4 في الإصدار 9851 من llama.cpp أن تغيير نوع ذاكرة التخزين المؤقت KV من f16 إلى q8_0 يقلل من استخدام ذاكرة التخزين المؤقت للحسابات على CUDA0 بنسبة حوالي 3.26 مرة.

أدى الانتقال من f16 إلى q8_0 إلى تقليل إجمالي ذاكرة التخزين المؤقت KV من ~425 ميغابايت إلى ~226 ميغابايت.
أدى نفس التغيير إلى خفض ذاكرة التخزين المؤقت للحسابات من 12,964 ميغابايت إلى 3,973 ميغابايت.
يمنع هذا الانخفاض أخطاء نفاد الذاكرة على بطاقات 32 جيجابايت عند استخدام أطوال سياق عالية مثل 32000.

يسمح فرض كومة ذاكرة التخزين المؤقت q8_0 بتحميل النموذج بنجاح في السيناريوهات التي يتجاوز فيها f16 ذاكرة الفيديو المتاحة.