Benchmark · agentic

Terminal-Bench

Real-world terminal/CLI agent tasks.

0 hasil 0 model

Belum ada skor terverifikasi yang dilaporkan untuk benchmark ini.