media r/LocalLLaMA · 1시간 전 · 출처: 4일 전 · open_models

SWE-rebench 리더보드에 GLM-5.2, Qwen3.6, Gemma 4 추가 및 UI 개선

번역 English → 한국어

SWE-rebench 리더보드에 새로운 모델 엔트리와 재설계된 사용자 인터페이스가 업데이트되어 결과 비교가 더 쉬워졌습니다.

Claude Opus 4.8 xhigh는 2.48M 토큰을 사용하여 56.5%의 해결률로 선두.
GLM-5.2는 2.62M 토큰으로 51.1% 달성.
Gemini 3.5 Flash는 1.85M 토큰을 사용하여 49.5% 획득.
MiniMax M3는 6.89M 토큰으로 45.6% 도달.
DeepSeek-V4 Pro는 2.25M 토큰을 사용하여 42.7% 달성.
MiMo V2.5 Pro는 2.59M 토큰으로 42.4% 획득.
DeepSeek-V4 Flash는 3.00M 토큰을 사용하여 38.4% 달성.
Qwen3.6-27B는 1.88M 토큰으로 36.5% 도달.
Qwen3.6-35B-A3B는 2.23M 토큰을 사용하여 33.8% 획득.
Gemma 4 31B는 2.24M 토큰으로 16.5% 달성.

이번 업데이트는 로컬 및 자체 호스팅 모델을 강조하며, Qwen3.6-27B가 그 크기 대비 특히 강력함을 지적했습니다.

중요도 1/3 r/LocalLLaMA Benchmark results Code generation

벤치마크

벤치마크	모델	점수
SWE-rebench	Claude Opus 4.8 xhigh	56.5%
SWE-rebench	GLM-5.2	51.1%
SWE-rebench	Gemini 3.5 Flash	49.5%
SWE-rebench	MiniMax M3	45.6%
SWE-rebench	DeepSeek-V4 Pro	42.7%
SWE-rebench	MiMo V2.5 Pro	42.4%
SWE-rebench	DeepSeek-V4 Flash	38.4%
SWE-rebench	Qwen3.6-27B	36.5%
SWE-rebench	Qwen3.6-35B-A3B	33.8%
SWE-rebench	Gemma 4 31B	16.5%