Benchmark · agentic

Multi-SWE-bench

Multi-repo, multi-language extension of SWE-bench.

0 条结果 0 个模型

该 benchmark 暂无已验证的得分。