Benchmark · agentic

τ-bench

Conversational tool-use benchmark from Sierra.

0 resultados 0 modelos

Aún no hay puntuaciones verificadas para este benchmark.