一位用户报告称,通过包含各种修复和优化措施的自定义 llama.cpp 分支在本地运行 DeepSeek V4 Pro 时性能有所提升。文章分享了基于配备 RTX PRO 6000 Max-Q 的 Epyc 9374F 系统的基准测试结果,指出在主分支构建中模型的内存使用量仍然很高。
- 基准测试使用 794GB GGUF 文件在配备 12 x 96GB DDR5 RAM 和 96GB VRAM 的硬件上进行。
- 自定义分支解决了由 lightning indexer 计算缓冲区和 CUDA top-k 临时缓冲区引起的过度内存消耗问题。
- 主分支 llama.cpp 目前存在量化的 KV 缓存支持损坏以及关于提示缓存重用和批次准备方面的潜在错误。
作者强调,虽然其特定的优化提高了速度,但依赖主分支 llama.cpp 的用户可能会遇到显著的内存开销和功能错误。