O ranking SWE-rebench foi atualizado com novas entradas de modelos e uma interface do usuário redesenhada para facilitar a comparação mais fácil dos resultados.
- Claude Opus 4.8 xhigh lidera com 56,5% de resolução usando 2,48M tokens.
- GLM-5.2 alcança 51,1% com 2,62M tokens.
- Gemini 3.5 Flash pontua 49,5% usando 1,85M tokens.
- MiniMax M3 atinge 45,6% com 6,89M tokens.
- DeepSeek-V4 Pro obtém 42,7% usando 2,25M tokens.
- MiMo V2.5 Pro pontua 42,4% com 2,59M tokens.
- DeepSeek-V4 Flash alcança 38,4% usando 3,00M tokens.
- Qwen3.6-27B atinge 36,5% com 1,88M tokens.
- Qwen3.6-35B-A3B pontua 33,8% usando 2,23M tokens.
- Gemma 4 31B alcança 16,5% com 2,24M tokens.
A atualização destaca modelos locais e auto-hospedados, observando Qwen3.6-27B como particularmente forte para seu tamanho.