Benchmark · agentic

τ-bench

Conversational tool-use benchmark from Sierra.

0 hasil 0 model

Belum ada skor terverifikasi yang dilaporkan untuk benchmark ini.