벤치마크 · agentic

SWE-bench Verified

Human-verified subset of SWE-bench; resolving GitHub issues end-to-end.

0 결과 0 모델

이 벤치마크에 대해 아직 검증된 점수가 없습니다.