Benchmark · agentic
SWE-bench Verified
Human-verified subset of SWE-bench; resolving GitHub issues end-to-end.
इस benchmark के लिए अभी तक कोई सत्यापित स्कोर रिपोर्ट नहीं किया गया है।
Human-verified subset of SWE-bench; resolving GitHub issues end-to-end.
इस benchmark के लिए अभी तक कोई सत्यापित स्कोर रिपोर्ट नहीं किया गया है।