llama.cpp b9840 版本引入了对 DeepSeek V4 模型的转换支持,包括对 Pro 变体的特定处理。此次更新将新架构集成到库中,并伴随各种内部优化和错误修复。
- 添加了 dsv4 转换、llm_graph_input_dsv4 以及保存-加载状态功能。
- 启用了 Flash Attention (FA),包含必要的填充和图复用机制。
- 支持多序列处理和部分检查点功能。
- 发布了适用于 macOS、Linux、Android、Windows 和 openEuler 的二进制文件,覆盖 CPU、GPU 以及 ROCm、SYCL 和 OpenVINO 等专用加速器。
此版本允许用户使用 llama.cpp 在各种硬件配置上本地运行 DeepSeek V4 模型。