Le classement SWE-rebench a été mis à jour avec de nouvelles entrées de modèles et une interface utilisateur redessinée pour faciliter la comparaison des résultats.
- Claude Opus 4.8 xhigh mène avec 56,5 % de résolution en utilisant 2,48 M de tokens.
- GLM-5.2 atteint 51,1 % avec 2,62 M de tokens.
- Gemini 3.5 Flash marque 49,5 % en utilisant 1,85 M de tokens.
- MiniMax M3 atteint 45,6 % avec 6,89 M de tokens.
- DeepSeek-V4 Pro atteint 42,7 % en utilisant 2,25 M de tokens.
- MiMo V2.5 Pro marque 42,4 % avec 2,59 M de tokens.
- DeepSeek-V4 Flash atteint 38,4 % en utilisant 3,00 M de tokens.
- Qwen3.6-27B atteint 36,5 % avec 1,88 M de tokens.
- Qwen3.6-35B-A3B marque 33,8 % en utilisant 2,23 M de tokens.
- Gemma 4 31B atteint 16,5 % avec 2,24 M de tokens.
La mise à jour met en avant les modèles locaux et auto-hébergés, notant que Qwen3.6-27B est particulièrement puissant pour sa taille.