Бенчмарк · agentic

Terminal-Bench

Real-world terminal/CLI agent tasks.

4 результатов 4 моделей
0 21.5 43 64.5 86 2026-06-16 2026-06-20 2026-06-23 GLM-5.2 · 80 · 2026-06-16 Qwen3.6-27b-FP8 · 55.7 · 2026-06-20 Tmax · 27 · 2026-06-23 Tmax-27B · 43 · 2026-06-23
GLM-5.2 Qwen3.6-27b-FP8 Tmax Tmax-27B
Хронология
  1. 2026-06-23 Tmax-27B 43.0% Агент Tmax-27B для малых видеокарт с обучением DPPO
  2. 2026-06-23 Tmax 27.0% Tmax: Простая рецептура RL для агентов-конечных
  3. 2026-06-20 Qwen3.6-27b-FP8 55.67tok/s Стоимость в $1800 GPU позволяет запустить Qwen3.6-27B с контекстом в 262K и скоростью 55 ток/с
  4. 2026-06-16 GLM-5.2 80.0% GLM-5.2 превышает 80% на Terminal-Bench