SWE-rebench 리더보드에 새로운 모델 엔트리와 재설계된 사용자 인터페이스가 업데이트되어 결과 비교가 더 쉬워졌습니다.

  • Claude Opus 4.8 xhigh는 2.48M 토큰을 사용하여 56.5%의 해결률로 선두.
  • GLM-5.2는 2.62M 토큰으로 51.1% 달성.
  • Gemini 3.5 Flash는 1.85M 토큰을 사용하여 49.5% 획득.
  • MiniMax M3는 6.89M 토큰으로 45.6% 도달.
  • DeepSeek-V4 Pro는 2.25M 토큰을 사용하여 42.7% 달성.
  • MiMo V2.5 Pro는 2.59M 토큰으로 42.4% 획득.
  • DeepSeek-V4 Flash는 3.00M 토큰을 사용하여 38.4% 달성.
  • Qwen3.6-27B는 1.88M 토큰으로 36.5% 도달.
  • Qwen3.6-35B-A3B는 2.23M 토큰을 사용하여 33.8% 획득.
  • Gemma 4 31B는 2.24M 토큰으로 16.5% 달성.

이번 업데이트는 로컬 및 자체 호스팅 모델을 강조하며, Qwen3.6-27B가 그 크기 대비 특히 강력함을 지적했습니다.