llama.cpp build 9851 में Bartowski के DeepSeek-V4-Flash-MXFP4 GGUF का परीक्षण करने वाले एक उपयोगकर्ता ने पाया कि KV कैश प्रकार को f16 से q8_0 में बदलने से CUDA0 कंप्यूट बफर उपयोग लगभग 3.26x कम हो जाता है।
- f16 से q8_0 पर स्विच करने से कुल KV कैश ~425 MiB से ~226 MiB तक कम हो गया।
- उसी बदलाव ने कंप्यूट बफर को 12,964 MiB से 3,973 MiB तक कम कर दिया।
- यह कमी 32GB कार्ड्स पर 32000 जैसे उच्च संदर्भ लंबाई का उपयोग करते समय मेमोरी आउट की त्रुटियों को रोकती है।
q8_0 कैश क्वांटीकरण को मजबूर करने से उन परिदृश्यों में जहां f16 उपलब्ध VRAM से अधिक हो जाता है, मॉडल सफलतापूर्वक लोड होता है।