Sebuah benchmark tindak lanjut mengevaluasi DeepSeek V4 Flash yang berjalan pada dua GPU RTX PRO 6000 menggunakan vLLM, membandingkan kinerjanya dalam tugas coding dunia nyata terhadap model berbasis API seperti Claude Sonnet dan Opus. Studi ini menemukan bahwa meskipun Opus dan Fable mempertahankan kualitas kode yang lebih unggul, DeepSeek V4 Flash mencapai kualitas sekitar setara Sonnet dengan waktu wall-clock yang jauh lebih cepat.

  • DeepSeek V4 Flash rata-rata 2 menit per tugas, sedangkan Sonnet 5 membutuhkan sekitar 6 menit, membuatnya kira-kira tiga kali lebih lambat.
  • Pengujian menggunakan OpenCode untuk model lokal dan Claude Code untuk model API guna mencerminkan setup pengguna umum daripada kinerja model yang terisolasi.
  • Model Qwen 3.6 disertakan sebagai titik jangkar untuk perbandingan dalam kerangka kerja benchmarking.

Hasilnya menunjukkan bahwa model lokal menjadi sangat kompetitif dalam hal kecepatan dan kualitas, asalkan pengguna dapat mengoptimalkan overhead dense attention.