Бенчмарк · agentic

τ-bench

Conversational tool-use benchmark from Sierra.

0 результатов 0 моделей

По этому бенчмарку пока нет проверенных результатов.