DeepSeek V4 Flash 使用 llama.cpp 分支在 RTX 5090 上运行，支持 1M 上下文

一名用户成功优化了 DeepSeek V4 Flash 模型，使其能够在 NVIDIA GeForce RTX 5090 上使用特定的 llama.cpp 分支运行。该配置支持 100 万 token 的上下文窗口，同时保留了一些显存余量。

基准测试结果显示出令牌生成 (TG) 吞吐量从 22.7 降至 21.3 tok/s，提示处理 (PP) 吞吐量从 1105 降至 927 tok/s。
该设置使用 Q2_K 量化的 GGUF 模型，MoE 结构且无统一 KV 缓存，并将 n-cpu-moe 设置为 37。
用户通过使用 512 的非批处理大小 (ub) 实现了 100 万上下文大小，这符合 RTX 5090 的内存限制。
优化需要来自 GitHub 用户 fairydreaming 的自定义 llama.cpp 分支以及针对 CUDA 架构 120 的特定 CMake 构建标志。

该配置表明，DeepSeek V4 Flash 可以在消费级硬件上运行巨大的上下文窗口，尽管吞吐量相比基线指标有所降低。