一项后续基准测试评估了使用vLLM在两块RTX PRO 6000 GPU上运行的DeepSeek V4 Flash,将其在现实世界编码任务中的性能与Claude Sonnet和Opus等基于API的模型进行比较。研究发现,虽然Opus和Fable保持了更优的代码质量,但DeepSeek V4 Flash以显著更快的墙钟时间达到了约Sonnet级别的质量。
- DeepSeek V4 Flash平均每个任务耗时2分钟,而Sonnet 5大约需要6分钟,使其慢了约三倍。
- 测试使用OpenCode用于本地模型,Claude Code用于API模型,以反映典型用户设置而非孤立模型性能。
- Qwen 3.6模型被包含在内,作为基准测试框架内的比较锚点。
结果表明,如果用户能够优化掉密集注意力开销,本地模型在速度和质量方面正变得极具竞争力。