Рейтинг SWE-rebench был обновлен новыми моделями и переработанным пользовательским интерфейсом для упрощения сравнения результатов.
- Claude Opus 4.8 xhigh лидирует с результатом 56,5% при использовании 2,48 млн токенов.
- GLM-5.2 достигает 51,1% при использовании 2,62 млн токенов.
- Gemini 3.5 Flash показывает 49,5% при использовании 1,85 млн токенов.
- MiniMax M3 достигает 45,6% при использовании 6,89 млн токенов.
- DeepSeek-V4 Pro достигает 42,7% при использовании 2,25 млн токенов.
- MiMo V2.5 Pro показывает 42,4% при использовании 2,59 млн токенов.
- DeepSeek-V4 Flash достигает 38,4% при использовании 3,00 млн токенов.
- Qwen3.6-27B достигает 36,5% при использовании 1,88 млн токенов.
- Qwen3.6-35B-A3B показывает 33,8% при использовании 2,23 млн токенов.
- Gemma 4 31B достигает 16,5% при использовании 2,24 млн токенов.
Обновление подчеркивает локальные и самохостинговые модели, отмечая Qwen3.6-27B как особенно сильную модель для своего размера.