El ranking de SWE-rebench se ha actualizado con nuevas entradas de modelos y una interfaz de usuario rediseñada para facilitar una comparación más sencilla de los resultados.

  • Claude Opus 4.8 xhigh lidera con un 56,5% de resolución usando 2,48M de tokens.
  • GLM-5.2 alcanza el 51,1% con 2,62M de tokens.
  • Gemini 3.5 Flash obtiene 49,5% usando 1,85M de tokens.
  • MiniMax M3 llega al 45,6% con 6,89M de tokens.
  • DeepSeek-V4 Pro alcanza el 42,7% usando 2,25M de tokens.
  • MiMo V2.5 Pro obtiene 42,4% con 2,59M de tokens.
  • DeepSeek-V4 Flash logra el 38,4% usando 3,00M de tokens.
  • Qwen3.6-27B alcanza el 36,5% con 1,88M de tokens.
  • Qwen3.6-35B-A3B obtiene 33,8% usando 2,23M de tokens.
  • Gemma 4 31B logra el 16,5% con 2,24M de tokens.

La actualización destaca los modelos locales y autoalojados, señalando a Qwen3.6-27B como particularmente sólido para su tamaño.