SWE-rebench लीडरबोर्ड को नए मॉडल प्रविष्टियों और परिणामों की तुलना को आसान बनाने के लिए पुनर्निर्मित उपयोगकर्ता इंटरफ़ेस के साथ अपडेट किया गया है।

  • Claude Opus 4.8 xhigh 2.48M टोकन का उपयोग करके 56.5% रिज़ॉल्यूशन के साथ शीर्ष पर है।
  • GLM-5.2 ने 2.62M टोकन के साथ 51.1% हासिल किया।
  • Gemini 3.5 Flash ने 1.85M टोकन का उपयोग करके 49.5% स्कोर किया।
  • MiniMax M3 ने 6.89M टोकन के साथ 45.6% हासिल किया।
  • DeepSeek-V4 Pro ने 2.25M टोकन का उपयोग करके 42.7% हासिल किया।
  • MiMo V2.5 Pro ने 2.59M टोकन के साथ 42.4% स्कोर किया।
  • DeepSeek-V4 Flash ने 3.00M टोकन का उपयोग करके 38.4% हासिल किया।
  • Qwen3.6-27B ने 1.88M टोकन के साथ 36.5% हासिल किया।
  • Qwen3.6-35B-A3B ने 2.23M टोकन का उपयोग करके 33.8% स्कोर किया।
  • Gemma 4 31B ने 2.24M टोकन के साथ 16.5% हासिल किया।

अपडेट स्थानीय और स्व-होस्टेड मॉडल पर प्रकाश डालता है, जिसमें Qwen3.6-27B को अपने आकार के लिए विशेष रूप से मजबूत बताया गया है।