用户 fairydreaming 已将拉取请求合并到其 llama.cpp 分支,以启用 DeepSeek V4 模型的量化键值 (KV) 缓存支持。这些更改包含了来自 PRs #25247、#25303 和 #25202 的修复,省略了一些填充调整。
- 实现支持 KV 缓存的 Q8_0 和 Q4_0 量化类型。
- 在 WikiText-2 上的困惑度测试显示与 f16 基线相比仅有最小程度的下降。
- 最终的困惑度分数分别为:f16 为 4.0242,Q8_0 为 4.0304,Q4_0 为 4.0512。
这些更新允许用户通过量化缓存以较低的内存使用量运行 DeepSeek V4,同时保持接近全精度模型的性能。