llama.cpp 中 DeepSeek V4 Pro 的性能更新

一位用户报告称，通过包含各种修复和优化措施的自定义 llama.cpp 分支在本地运行 DeepSeek V4 Pro 时性能有所提升。文章分享了基于配备 RTX PRO 6000 Max-Q 的 Epyc 9374F 系统的基准测试结果，指出在主分支构建中模型的内存使用量仍然很高。

作者强调，虽然其特定的优化提高了速度，但依赖主分支 llama.cpp 的用户可能会遇到显著的内存开销和功能错误。