Benchmark · agentic
SWE-bench Verified
Human-verified subset of SWE-bench; resolving GitHub issues end-to-end.
لا توجد درجات موثّقة لهذا الـ Benchmark بعد.
Human-verified subset of SWE-bench; resolving GitHub issues end-to-end.
لا توجد درجات موثّقة لهذا الـ Benchmark بعد.