DeepSeek V4 FlashをvLLMを用いて2枚のRTX PRO 6000 GPU上で動作させた追跡ベンチマークは、Claude SonnetやOpusなどのAPIベースモデルと比較して、現実的なコーディングタスクでのパフォーマンスを評価したものである。その結果、OpusとFableは優れたコード品質を維持しているものの、DeepSeek V4 FlashはSonnetレベルの品質を達成しつつ、大幅に短い実時間で処理を終了することが判明した。

  • DeepSeek V4 Flashは1タスクあたり平均2分であるのに対し、Sonnet 5は約6分を要し、約3倍遅い。
  • テストでは、孤立したモデル性能ではなく典型的なユーザー環境を反映するため、ローカルモデルにはOpenCode、APIモデルにはClaude Codeが使用された。
  • ベンチマークフレームワーク内での比較基準として、Qwen 3.6モデルも含まれている。

この結果は、ユーザーが密集アテンションのオーバーヘッドを最適化できる場合、ローカルモデルが速度と品質の両面で非常に競争力を持っていることを示唆している。