media r/LocalLLaMA · 2 小时前 · 来源： 1 天前 · open_models

llama.cpp 补丁使 RTX 5090 上的 DeepSeek V4 Flash 支持 1M 上下文

译自 English → 中文

一名开发者实现了 CUDA kernel 并将 DSA lightning indexer 接入 llama.cpp，使得在 RTX 5090 等消费级硬件上能够以完整的 1M token 上下文对 DeepSeek V4 Flash 模型进行本地推理。

该补丁将 256K 上下文下的计算缓冲区需求从 ~67 GiB 降低至 3.2 GiB，并允许仅使用 3.75 GiB VRAM 即可使用 1M 上下文。
Prefill 速度显著提升，在 256K 上下文下达到 ~263 tok/s，而之前仅为 56 tok/s。
通过在 100K、512K 和 1M token 文档的 10%、50% 和 90% 深度上进行 needle-in-haystack 测试验证了正确性。
这些更改可在自定义分支中获得，并附带构建说明，因为未提供预编译二进制文件。

这项工作允许用户在本地运行具有大上下文的 DeepSeek V4 Flash，而无需要求荒谬数量的 VRAM。

重要性 1/3 r/LocalLLaMA Hardware & chips Inference efficiency