SWE-rebench लीडरबोर्ड में GLM-5.2, Qwen3.6, Gemma 4 का जोड़ और UI में सुधार

SWE-rebench लीडरबोर्ड को नए मॉडल प्रविष्टियों और परिणामों की तुलना को आसान बनाने के लिए पुनर्निर्मित उपयोगकर्ता इंटरफ़ेस के साथ अपडेट किया गया है।

Claude Opus 4.8 xhigh 2.48M टोकन का उपयोग करके 56.5% रिज़ॉल्यूशन के साथ शीर्ष पर है।
GLM-5.2 ने 2.62M टोकन के साथ 51.1% हासिल किया।
Gemini 3.5 Flash ने 1.85M टोकन का उपयोग करके 49.5% स्कोर किया।
MiniMax M3 ने 6.89M टोकन के साथ 45.6% हासिल किया।
DeepSeek-V4 Pro ने 2.25M टोकन का उपयोग करके 42.7% हासिल किया।
MiMo V2.5 Pro ने 2.59M टोकन के साथ 42.4% स्कोर किया।
DeepSeek-V4 Flash ने 3.00M टोकन का उपयोग करके 38.4% हासिल किया।
Qwen3.6-27B ने 1.88M टोकन के साथ 36.5% हासिल किया।
Qwen3.6-35B-A3B ने 2.23M टोकन का उपयोग करके 33.8% स्कोर किया।
Gemma 4 31B ने 2.24M टोकन के साथ 16.5% हासिल किया।

अपडेट स्थानीय और स्व-होस्टेड मॉडल पर प्रकाश डालता है, जिसमें Qwen3.6-27B को अपने आकार के लिए विशेष रूप से मजबूत बताया गया है।

Benchmarks