一位在 llama.cpp build 9851 中测试 Bartowski 的 DeepSeek-V4-Flash-MXFP4 GGUF 的用户发现,将 KV 缓存类型从 f16 更改为 q8_0 可将 CUDA0 计算缓冲区的使用量减少约 3.26 倍。
- 从 f16 切换到 q8_0 使总 KV 缓存从 ~425 MiB 减少到 ~226 MiB。
- 同样的更改将计算缓冲区从 12,964 MiB 降低到 3,973 MiB。
- 这种减少可以防止在使用 32000 这样的高上下文长度时,在 32GB 显卡上出现内存不足错误。
强制使用 q8_0 缓存量化允许模型在 f16 会超出可用 VRAM 的场景中成功加载。