ベンチマーク · agentic

τ-bench

Conversational tool-use benchmark from Sierra.

0 結果 0 モデル

このベンチマークの検証済みスコアはまだありません。