后续：DeepSeek V4 Flash在2x RTX PRO 6000上完成真实编码任务的速度快于Sonnet和Opus，质量约为Sonnet水平

一项后续基准测试评估了使用vLLM在两块RTX PRO 6000 GPU上运行的DeepSeek V4 Flash，将其在现实世界编码任务中的性能与Claude Sonnet和Opus等基于API的模型进行比较。研究发现，虽然Opus和Fable保持了更优的代码质量，但DeepSeek V4 Flash以显著更快的墙钟时间达到了约Sonnet级别的质量。

DeepSeek V4 Flash平均每个任务耗时2分钟，而Sonnet 5大约需要6分钟，使其慢了约三倍。
测试使用OpenCode用于本地模型，Claude Code用于API模型，以反映典型用户设置而非孤立模型性能。
Qwen 3.6模型被包含在内，作为基准测试框架内的比较锚点。

结果表明，如果用户能够优化掉密集注意力开销，本地模型在速度和质量方面正变得极具竞争力。