media r/LocalLLaMA · 2 小时前 · 来源： 5 天前 · open_models

llama.cpp 中的 KV 缓存量化将 DeepSeek-V4-Flash 计算缓冲区减少了 3 倍

译自 English → 中文

一位在 llama.cpp build 9851 中测试 Bartowski 的 DeepSeek-V4-Flash-MXFP4 GGUF 的用户发现，将 KV 缓存类型从 f16 更改为 q8_0 可将 CUDA0 计算缓冲区的使用量减少约 3.26 倍。

从 f16 切换到 q8_0 使总 KV 缓存从 ~425 MiB 减少到 ~226 MiB。
同样的更改将计算缓冲区从 12,964 MiB 降低到 3,973 MiB。
这种减少可以防止在使用 32000 这样的高上下文长度时，在 32GB 显卡上出现内存不足错误。

强制使用 q8_0 缓存量化允许模型在 f16 会超出可用 VRAM 的场景中成功加载。

重要性 1/3 r/LocalLLaMA Inference efficiency