llama.cpp में KV कैश क्वांटीकरण DeepSeek-V4-Flash कंप्यूट बफर को 3x कम करता है

llama.cpp build 9851 में Bartowski के DeepSeek-V4-Flash-MXFP4 GGUF का परीक्षण करने वाले एक उपयोगकर्ता ने पाया कि KV कैश प्रकार को f16 से q8_0 में बदलने से CUDA0 कंप्यूट बफर उपयोग लगभग 3.26x कम हो जाता है।

f16 से q8_0 पर स्विच करने से कुल KV कैश ~425 MiB से ~226 MiB तक कम हो गया।
उसी बदलाव ने कंप्यूट बफर को 12,964 MiB से 3,973 MiB तक कम कर दिया।
यह कमी 32GB कार्ड्स पर 32000 जैसे उच्च संदर्भ लंबाई का उपयोग करते समय मेमोरी आउट की त्रुटियों को रोकती है।

q8_0 कैश क्वांटीकरण को मजबूर करने से उन परिदृश्यों में जहां f16 उपलब्ध VRAM से अधिक हो जाता है, मॉडल सफलतापूर्वक लोड होता है।