एक फॉलो-अप बेंचमार्क दो RTX PRO 6000 GPU पर vLLM का उपयोग करके चल रहे DeepSeek V4 Flash का मूल्यांकन करता है, Claude Sonnet और Opus जैसे API-आधारित मॉडल के साथ वास्तविक कोडिंग कार्यों में इसके प्रदर्शन की तुलना करता है। अध्ययन पाता है कि हालांकि Opus और Fable श्रेष्ठ कोड गुणवत्ता बनाए रखते हैं, DeepSeek V4 Flash महत्वपूर्ण रूप से तेज वॉल-क्लाक समय के साथ लगभग Sonnet-स्तर की गुणवत्ता प्राप्त करता है।

  • DeepSeek V4 Flash प्रति कार्य औसतन 2 मिनट लेता है, जबकि Sonnet 5 लगभग 6 मिनट लेता है, जिससे यह लगभग तीन गुना धीमा हो जाता है।
  • परीक्षण ने स्थानीय मॉडल के लिए OpenCode और API मॉडल के लिए Claude Code का उपयोग किया ताकि अलग-थलग मॉडल प्रदर्शन के बजाय सामान्य उपयोगकर्ता सेटअप को प्रतिबिंबित किया जा सके।
  • Qwen 3.6 मॉडल को बेंचमार्किंग फ्रेमवर्क में तुलना के लिए एंकरिंग बिंदुओं के रूप में शामिल किया गया था।

परिणाम सुझाव देते हैं कि स्थानीय मॉडल गति और गुणवत्ता में उच्च स्तर पर प्रतिस्पर्धी हो रहे हैं, बशर्ते उपयोगकर्ता घने ध्यान ओवरहेड को अनुकूलित कर सकें।