media r/LocalLLaMA · 1 jam lalu · sumber: 4 hari lalu · open_models

Papan peringkat SWE-rebench menambahkan GLM-5.2, Qwen3.6, Gemma 4 dan meningkatkan UI

Diterjemahkan dari English → Bahasa Indonesia

Papan peringkat SWE-rebench telah diperbarui dengan entri model baru dan antarmuka pengguna yang didesain ulang untuk memudahkan perbandingan hasil.

Claude Opus 4.8 xhigh memimpin dengan resolusi 56,5% menggunakan 2,48M token.
GLM-5.2 mencapai 51,1% dengan 2,62M token.
Gemini 3.5 Flash mencetak 49,5% menggunakan 1,85M token.
MiniMax M3 mencapai 45,6% dengan 6,89M token.
DeepSeek-V4 Pro mencapai 42,7% menggunakan 2,25M token.
MiMo V2.5 Pro mencetak 42,4% dengan 2,59M token.
DeepSeek-V4 Flash mencapai 38,4% menggunakan 3,00M token.
Qwen3.6-27B mencapai 36,5% dengan 1,88M token.
Qwen3.6-35B-A3B mencetak 33,8% menggunakan 2,23M token.
Gemma 4 31B mencapai 16,5% dengan 2,24M token.

Pembaruan ini menyoroti model lokal dan self-hosted, mencatat bahwa Qwen3.6-27B sangat kuat untuk ukurannya.

Kepentingan 1/3 r/LocalLLaMA Benchmark results Code generation

Benchmark

Benchmark	Model	Skor
SWE-rebench	Claude Opus 4.8 xhigh	56.5%
SWE-rebench	GLM-5.2	51.1%
SWE-rebench	Gemini 3.5 Flash	49.5%
SWE-rebench	MiniMax M3	45.6%
SWE-rebench	DeepSeek-V4 Pro	42.7%
SWE-rebench	MiMo V2.5 Pro	42.4%
SWE-rebench	DeepSeek-V4 Flash	38.4%
SWE-rebench	Qwen3.6-27B	36.5%
SWE-rebench	Qwen3.6-35B-A3B	33.8%
SWE-rebench	Gemma 4 31B	16.5%