Исследователи представляют Agents-A1, модель Mixture-of-Experts на 35B параметров, которая достигает производительности, сопоставимой с моделями на триллион параметров, за счет масштабирования горизонта агента, а не количества параметров. Подход сосредоточен на расширении длинногоризонтных траекторий и объединении разнородных способностей агентов с помощью специализированной инфраструктуры обучения.
- Agents-A1 использует инфраструктуру знаний и действий для длинного горизонта, создающую агентные траектории средней длиной 45K токенов.
- Обучение следует трехэтапному рецепту: полное доменное обучение с учителем (SFT), обучение модели-учителя на уровне домена и многоучительская дистилляция on-policy с маршрутизацией по домену.
- Модель объединяет шесть разнородных доменов в одну развертываемую модель-студент, используя выравнивание значимой лексики для эффективной передачи знаний.
- Agents-A1 превосходит модели на триллион параметров, такие как Kimi-K2.6 и DeepSeek-V4-pro, на бенчмарках SEAL-0 (56.4), IFBench (80.6), HiPhO (46.4), FrontierScience-Olympiad (79.0) и MolBench-Bind (56.8).
Эта работа предлагает практический путь масштабирования горизонтов агентов, демонстрируя, что модель на 35B параметров может соответствовать производительности значительно более крупных моделей на задачах с длинным горизонтом.