Бенчмарк · agentic
Terminal-Bench
Real-world terminal/CLI agent tasks.
- 2026-06-23 Tmax-27B 43.0% Агент Tmax-27B для малых видеокарт с обучением DPPO
- 2026-06-23 Tmax 27.0% Tmax: Простая рецептура RL для агентов-конечных
- 2026-06-20 Qwen3.6-27b-FP8 55.67tok/s Стоимость в $1800 GPU позволяет запустить Qwen3.6-27B с контекстом в 262K и скоростью 55 ток/с
- 2026-06-16 GLM-5.2 80.0% GLM-5.2 превышает 80% на Terminal-Bench