وجد مستخدم يختبر ملف GGUF الخاص بـ Bartowski لنموذج DeepSeek-V4-Flash-MXFP4 في الإصدار 9851 من llama.cpp أن تغيير نوع ذاكرة التخزين المؤقت KV من f16 إلى q8_0 يقلل من استخدام ذاكرة التخزين المؤقت للحسابات على CUDA0 بنسبة حوالي 3.26 مرة.
- أدى الانتقال من f16 إلى q8_0 إلى تقليل إجمالي ذاكرة التخزين المؤقت KV من ~425 ميغابايت إلى ~226 ميغابايت.
- أدى نفس التغيير إلى خفض ذاكرة التخزين المؤقت للحسابات من 12,964 ميغابايت إلى 3,973 ميغابايت.
- يمنع هذا الانخفاض أخطاء نفاد الذاكرة على بطاقات 32 جيجابايت عند استخدام أطوال سياق عالية مثل 32000.
يسمح فرض كومة ذاكرة التخزين المؤقت q8_0 بتحميل النموذج بنجاح في السيناريوهات التي يتجاوز فيها f16 ذاكرة الفيديو المتاحة.