Le classement SWE-rebench a été mis à jour avec de nouvelles entrées de modèles et une interface utilisateur redessinée pour faciliter la comparaison des résultats.

  • Claude Opus 4.8 xhigh mène avec 56,5 % de résolution en utilisant 2,48 M de tokens.
  • GLM-5.2 atteint 51,1 % avec 2,62 M de tokens.
  • Gemini 3.5 Flash marque 49,5 % en utilisant 1,85 M de tokens.
  • MiniMax M3 atteint 45,6 % avec 6,89 M de tokens.
  • DeepSeek-V4 Pro atteint 42,7 % en utilisant 2,25 M de tokens.
  • MiMo V2.5 Pro marque 42,4 % avec 2,59 M de tokens.
  • DeepSeek-V4 Flash atteint 38,4 % en utilisant 3,00 M de tokens.
  • Qwen3.6-27B atteint 36,5 % avec 1,88 M de tokens.
  • Qwen3.6-35B-A3B marque 33,8 % en utilisant 2,23 M de tokens.
  • Gemma 4 31B atteint 16,5 % avec 2,24 M de tokens.

La mise à jour met en avant les modèles locaux et auto-hébergés, notant que Qwen3.6-27B est particulièrement puissant pour sa taille.