Seorang pengguna yang menguji GGUF DeepSeek-V4-Flash-MXFP4 dari Bartowski di build 9851 llama.cpp menemukan bahwa mengubah tipe cache KV dari f16 ke q8_0 mengurangi penggunaan buffer komputasi CUDA0 sekitar 3,26x.
- Beralih dari f16 ke q8_0 mengurangi total cache KV dari ~425 MiB menjadi ~226 MiB.
- Perubahan yang sama menurunkan buffer komputasi dari 12.964 MiB menjadi 3.973 MiB.
- Pengurangan ini mencegah kesalahan out-of-memory pada kartu 32GB saat menggunakan panjang konteks tinggi seperti 32000.
Memaksa kuantisasi cache q8_0 memungkinkan model dimuat dengan sukses dalam skenario di mana f16 akan melebihi VRAM yang tersedia.