Papan peringkat SWE-rebench telah diperbarui dengan entri model baru dan antarmuka pengguna yang didesain ulang untuk memudahkan perbandingan hasil.
- Claude Opus 4.8 xhigh memimpin dengan resolusi 56,5% menggunakan 2,48M token.
- GLM-5.2 mencapai 51,1% dengan 2,62M token.
- Gemini 3.5 Flash mencetak 49,5% menggunakan 1,85M token.
- MiniMax M3 mencapai 45,6% dengan 6,89M token.
- DeepSeek-V4 Pro mencapai 42,7% menggunakan 2,25M token.
- MiMo V2.5 Pro mencetak 42,4% dengan 2,59M token.
- DeepSeek-V4 Flash mencapai 38,4% menggunakan 3,00M token.
- Qwen3.6-27B mencapai 36,5% dengan 1,88M token.
- Qwen3.6-35B-A3B mencetak 33,8% menggunakan 2,23M token.
- Gemma 4 31B mencapai 16,5% dengan 2,24M token.
Pembaruan ini menyoroti model lokal dan self-hosted, mencatat bahwa Qwen3.6-27B sangat kuat untuk ukurannya.