TMax представляет TMax-15k, набор из 14 600 сред RL, превышающий на более чем 2,5 раза самый большой открытый набор сред в терминале. Также предлагается простой рецепт RL, который обучает открытые модели от 2 миллиардов до 27 миллиардов параметров, при этом TMax-9B достигает 27,2% на Terminal Bench 2.0, а TMax-27B — 42,7%.
TMax: Простой рецепт для агентов в терминале
Переведено с English → Русский