一名开发者实现了 CUDA kernel 并将 DSA lightning indexer 接入 llama.cpp,使得在 RTX 5090 等消费级硬件上能够以完整的 1M token 上下文对 DeepSeek V4 Flash 模型进行本地推理。

  • 该补丁将 256K 上下文下的计算缓冲区需求从 ~67 GiB 降低至 3.2 GiB,并允许仅使用 3.75 GiB VRAM 即可使用 1M 上下文。
  • Prefill 速度显著提升,在 256K 上下文下达到 ~263 tok/s,而之前仅为 56 tok/s。
  • 通过在 100K、512K 和 1M token 文档的 10%、50% 和 90% 深度上进行 needle-in-haystack 测试验证了正确性。
  • 这些更改可在自定义分支中获得,并附带构建说明,因为未提供预编译二进制文件。

这项工作允许用户在本地运行具有大上下文的 DeepSeek V4 Flash,而无需要求荒谬数量的 VRAM。