Масштабирование горизонта, а не параметров: достижение производительности триллионных моделей с агентом на 35B
Исследователи представляют Agents-A1, модель Mixture-of-Experts на 35B параметров, которая достигает производительности, сопоставимой с моделями на триллион параметров, за счет масштабирования горизонта агента, а не количества параметров. Подход сосредоточен на расширении длинногоризонтных траекторий и объединении разнородных способностей агентов с помощью специализированной инфраструктуры обучения.