وجد مستخدم يختبر ملف GGUF الخاص بـ Bartowski لنموذج DeepSeek-V4-Flash-MXFP4 في الإصدار 9851 من llama.cpp أن تغيير نوع ذاكرة التخزين المؤقت KV من f16 إلى q8_0 يقلل من استخدام ذاكرة التخزين المؤقت للحسابات على CUDA0 بنسبة حوالي 3.26 مرة.

  • أدى الانتقال من f16 إلى q8_0 إلى تقليل إجمالي ذاكرة التخزين المؤقت KV من ~425 ميغابايت إلى ~226 ميغابايت.
  • أدى نفس التغيير إلى خفض ذاكرة التخزين المؤقت للحسابات من 12,964 ميغابايت إلى 3,973 ميغابايت.
  • يمنع هذا الانخفاض أخطاء نفاد الذاكرة على بطاقات 32 جيجابايت عند استخدام أطوال سياق عالية مثل 32000.

يسمح فرض كومة ذاكرة التخزين المؤقت q8_0 بتحميل النموذج بنجاح في السيناريوهات التي يتجاوز فيها f16 ذاكرة الفيديو المتاحة.