media r/LocalLLaMA · منذ 1 ساعة · المصدر: منذ 4 يوم · open_models

قائمة SWE-rebench تضيف GLM-5.2 وQwen3.6 وGemma 4 وتحسن واجهة المستخدم

مُترجم من English → العربية

تم تحديث قائمة SWE-rebench بإدخالات نماذج جديدة وواجهة مستخدم مصممة بشكل جديد لتسهيل مقارنة النتائج.

يتصدر Claude Opus 4.8 xhigh بنسبة حل 56.5% باستخدام 2.48M رمزًا.
يحقق GLM-5.2 نسبة 51.1% باستخدام 2.62M رمزًا.
يسجل Gemini 3.5 Flash نسبة 49.5% باستخدام 1.85M رمزًا.
يصل MiniMax M3 إلى 45.6% باستخدام 6.89M رمزًا.
يحقق DeepSeek-V4 Pro نسبة 42.7% باستخدام 2.25M رمزًا.
يسجل MiMo V2.5 Pro نسبة 42.4% باستخدام 2.59M رمزًا.
يصل DeepSeek-V4 Flash إلى 38.4% باستخدام 3.00M رمزًا.
يصل Qwen3.6-27B إلى 36.5% باستخدام 1.88M رمزًا.
يسجل Qwen3.6-35B-A3B نسبة 33.8% باستخدام 2.23M رمزًا.
تصل Gemma 4 31B إلى 16.5% باستخدام 2.24M رمزًا.

تسلط التحديث الضوء على النماذج المحلية والمستضافة ذاتيًا، موضحًا أن Qwen3.6-27B قوي بشكل خاص بالنسبة لحجمه.

الأهمية 1/3 r/LocalLLaMA Benchmark results Code generation

Benchmarks

Benchmark	النموذج	الدرجة
SWE-rebench	Claude Opus 4.8 xhigh	56.5%
SWE-rebench	GLM-5.2	51.1%
SWE-rebench	Gemini 3.5 Flash	49.5%
SWE-rebench	MiniMax M3	45.6%
SWE-rebench	DeepSeek-V4 Pro	42.7%
SWE-rebench	MiMo V2.5 Pro	42.4%
SWE-rebench	DeepSeek-V4 Flash	38.4%
SWE-rebench	Qwen3.6-27B	36.5%
SWE-rebench	Qwen3.6-35B-A3B	33.8%
SWE-rebench	Gemma 4 31B	16.5%

قراءة الأصل