Le classement SWE-rebench ajoute GLM-5.2, Qwen3.6, Gemma 4 et améliore l'interface

Le classement SWE-rebench a été mis à jour avec de nouvelles entrées de modèles et une interface utilisateur redessinée pour faciliter la comparaison des résultats.

Claude Opus 4.8 xhigh mène avec 56,5 % de résolution en utilisant 2,48 M de tokens.
GLM-5.2 atteint 51,1 % avec 2,62 M de tokens.
Gemini 3.5 Flash marque 49,5 % en utilisant 1,85 M de tokens.
MiniMax M3 atteint 45,6 % avec 6,89 M de tokens.
DeepSeek-V4 Pro atteint 42,7 % en utilisant 2,25 M de tokens.
MiMo V2.5 Pro marque 42,4 % avec 2,59 M de tokens.
DeepSeek-V4 Flash atteint 38,4 % en utilisant 3,00 M de tokens.
Qwen3.6-27B atteint 36,5 % avec 1,88 M de tokens.
Qwen3.6-35B-A3B marque 33,8 % en utilisant 2,23 M de tokens.
Gemma 4 31B atteint 16,5 % avec 2,24 M de tokens.

La mise à jour met en avant les modèles locaux et auto-hébergés, notant que Qwen3.6-27B est particulièrement puissant pour sa taille.

Benchmarks

Benchmark	Modèle	Score
SWE-rebench	Claude Opus 4.8 xhigh	56.5%
SWE-rebench	GLM-5.2	51.1%
SWE-rebench	Gemini 3.5 Flash	49.5%
SWE-rebench	MiniMax M3	45.6%
SWE-rebench	DeepSeek-V4 Pro	42.7%
SWE-rebench	MiMo V2.5 Pro	42.4%
SWE-rebench	DeepSeek-V4 Flash	38.4%
SWE-rebench	Qwen3.6-27B	36.5%
SWE-rebench	Qwen3.6-35B-A3B	33.8%
SWE-rebench	Gemma 4 31B	16.5%

Benchmark

Modèle

Score

SWE-rebench

Claude Opus 4.8 xhigh

56.5%

SWE-rebench

GLM-5.2

51.1%

SWE-rebench

Gemini 3.5 Flash

49.5%

SWE-rebench

MiniMax M3

45.6%

SWE-rebench

DeepSeek-V4 Pro

42.7%

SWE-rebench

MiMo V2.5 Pro

42.4%

SWE-rebench

DeepSeek-V4 Flash

38.4%

SWE-rebench

Qwen3.6-27B

36.5%

SWE-rebench

Qwen3.6-35B-A3B

33.8%

SWE-rebench

Gemma 4 31B

16.5%