SWE-rebenchリーダーボードにGLM-5.2、Qwen3.6、Gemma 4が追加されUIが改善

SWE-rebenchリーダーボードに新しいモデルエントリと再設計されたユーザーインターフェースが追加され、結果の比較が容易になりました。

今回のアップデートではローカルおよびセルフホストモデルが強調され、Qwen3.6-27Bはそのサイズに対して特に強力であることが指摘されています。

ベンチマーク

モデル

スコア

SWE-rebench

Claude Opus 4.8 xhigh

56.5%

SWE-rebench

GLM-5.2

51.1%

SWE-rebench

Gemini 3.5 Flash

49.5%

SWE-rebench

MiniMax M3

45.6%

SWE-rebench

DeepSeek-V4 Pro

42.7%

SWE-rebench

MiMo V2.5 Pro

42.4%

SWE-rebench

DeepSeek-V4 Flash

38.4%

SWE-rebench

Qwen3.6-27B

36.5%

SWE-rebench

Qwen3.6-35B-A3B

33.8%

SWE-rebench

Gemma 4 31B

16.5%