Seorang pengguna yang menguji GGUF DeepSeek-V4-Flash-MXFP4 dari Bartowski di build 9851 llama.cpp menemukan bahwa mengubah tipe cache KV dari f16 ke q8_0 mengurangi penggunaan buffer komputasi CUDA0 sekitar 3,26x.

  • Beralih dari f16 ke q8_0 mengurangi total cache KV dari ~425 MiB menjadi ~226 MiB.
  • Perubahan yang sama menurunkan buffer komputasi dari 12.964 MiB menjadi 3.973 MiB.
  • Pengurangan ini mencegah kesalahan out-of-memory pada kartu 32GB saat menggunakan panjang konteks tinggi seperti 32000.

Memaksa kuantisasi cache q8_0 memungkinkan model dimuat dengan sukses dalam skenario di mana f16 akan melebihi VRAM yang tersedia.