El ranking de SWE-rebench añade GLM-5.2, Qwen3.6, Gemma 4 y mejora la interfaz

El ranking de SWE-rebench se ha actualizado con nuevas entradas de modelos y una interfaz de usuario rediseñada para facilitar una comparación más sencilla de los resultados.

Claude Opus 4.8 xhigh lidera con un 56,5% de resolución usando 2,48M de tokens.
GLM-5.2 alcanza el 51,1% con 2,62M de tokens.
Gemini 3.5 Flash obtiene 49,5% usando 1,85M de tokens.
MiniMax M3 llega al 45,6% con 6,89M de tokens.
DeepSeek-V4 Pro alcanza el 42,7% usando 2,25M de tokens.
MiMo V2.5 Pro obtiene 42,4% con 2,59M de tokens.
DeepSeek-V4 Flash logra el 38,4% usando 3,00M de tokens.
Qwen3.6-27B alcanza el 36,5% con 1,88M de tokens.
Qwen3.6-35B-A3B obtiene 33,8% usando 2,23M de tokens.
Gemma 4 31B logra el 16,5% con 2,24M de tokens.

La actualización destaca los modelos locales y autoalojados, señalando a Qwen3.6-27B como particularmente sólido para su tamaño.

Benchmarks

Benchmark	Modelo	Puntuación
SWE-rebench	Claude Opus 4.8 xhigh	56.5%
SWE-rebench	GLM-5.2	51.1%
SWE-rebench	Gemini 3.5 Flash	49.5%
SWE-rebench	MiniMax M3	45.6%
SWE-rebench	DeepSeek-V4 Pro	42.7%
SWE-rebench	MiMo V2.5 Pro	42.4%
SWE-rebench	DeepSeek-V4 Flash	38.4%
SWE-rebench	Qwen3.6-27B	36.5%
SWE-rebench	Qwen3.6-35B-A3B	33.8%
SWE-rebench	Gemma 4 31B	16.5%

Benchmark

Modelo

Puntuación

SWE-rebench

Claude Opus 4.8 xhigh

56.5%

SWE-rebench

GLM-5.2

51.1%

SWE-rebench

Gemini 3.5 Flash

49.5%

SWE-rebench

MiniMax M3

45.6%

SWE-rebench

DeepSeek-V4 Pro

42.7%

SWE-rebench

MiMo V2.5 Pro

42.4%

SWE-rebench

DeepSeek-V4 Flash

38.4%

SWE-rebench

Qwen3.6-27B

36.5%

SWE-rebench

Qwen3.6-35B-A3B

33.8%

SWE-rebench

Gemma 4 31B

16.5%