SWE-rebenchリーダーボードに新しいモデルエントリと再設計されたユーザーインターフェースが追加され、結果の比較が容易になりました。
- Claude Opus 4.8 xhighは2.48Mトークンを使用して56.5%の解決率で首位。
- GLM-5.2は2.62Mトークンで51.1%を達成。
- Gemini 3.5 Flashは1.85Mトークンを使用して49.5%を獲得。
- MiniMax M3は6.89Mトークンで45.6%に到達。
- DeepSeek-V4 Proは2.25Mトークンを使用して42.7%を達成。
- MiMo V2.5 Proは2.59Mトークンで42.4%を獲得。
- DeepSeek-V4 Flashは3.00Mトークンを使用して38.4%を達成。
- Qwen3.6-27Bは1.88Mトークンで36.5%に到達。
- Qwen3.6-35B-A3Bは2.23Mトークンを使用して33.8%を獲得。
- Gemma 4 31Bは2.24Mトークンで16.5%を達成。
今回のアップデートではローカルおよびセルフホストモデルが強調され、Qwen3.6-27Bはそのサイズに対して特に強力であることが指摘されています。