Benchmark · agentic

τ-bench

Conversational tool-use benchmark from Sierra.

0 résultats 0 modèles

Aucun score vérifié pour ce benchmark à ce jour.