一名用户成功优化了 DeepSeek V4 Flash 模型,使其能够在 NVIDIA GeForce RTX 5090 上使用特定的 llama.cpp 分支运行。该配置支持 100 万 token 的上下文窗口,同时保留了一些显存余量。

  • 基准测试结果显示出令牌生成 (TG) 吞吐量从 22.7 降至 21.3 tok/s,提示处理 (PP) 吞吐量从 1105 降至 927 tok/s。
  • 该设置使用 Q2_K 量化的 GGUF 模型,MoE 结构且无统一 KV 缓存,并将 n-cpu-moe 设置为 37。
  • 用户通过使用 512 的非批处理大小 (ub) 实现了 100 万上下文大小,这符合 RTX 5090 的内存限制。
  • 优化需要来自 GitHub 用户 fairydreaming 的自定义 llama.cpp 分支以及针对 CUDA 架构 120 的特定 CMake 构建标志。

该配置表明,DeepSeek V4 Flash 可以在消费级硬件上运行巨大的上下文窗口,尽管吞吐量相比基线指标有所降低。