ベンチマーク · agentic

Terminal-Bench

Real-world terminal/CLI agent tasks.

0 結果 0 モデル

このベンチマークの検証済みスコアはまだありません。