تم تحديث قائمة SWE-rebench بإدخالات نماذج جديدة وواجهة مستخدم مصممة بشكل جديد لتسهيل مقارنة النتائج.
- يتصدر Claude Opus 4.8 xhigh بنسبة حل 56.5% باستخدام 2.48M رمزًا.
- يحقق GLM-5.2 نسبة 51.1% باستخدام 2.62M رمزًا.
- يسجل Gemini 3.5 Flash نسبة 49.5% باستخدام 1.85M رمزًا.
- يصل MiniMax M3 إلى 45.6% باستخدام 6.89M رمزًا.
- يحقق DeepSeek-V4 Pro نسبة 42.7% باستخدام 2.25M رمزًا.
- يسجل MiMo V2.5 Pro نسبة 42.4% باستخدام 2.59M رمزًا.
- يصل DeepSeek-V4 Flash إلى 38.4% باستخدام 3.00M رمزًا.
- يصل Qwen3.6-27B إلى 36.5% باستخدام 1.88M رمزًا.
- يسجل Qwen3.6-35B-A3B نسبة 33.8% باستخدام 2.23M رمزًا.
- تصل Gemma 4 31B إلى 16.5% باستخدام 2.24M رمزًا.
تسلط التحديث الضوء على النماذج المحلية والمستضافة ذاتيًا، موضحًا أن Qwen3.6-27B قوي بشكل خاص بالنسبة لحجمه.