SPIRAL: Обучение поиску и агрегации
Авторы представляют Sequential-Parallel-Aggregative Reinforcement Learning (SPIRAL) — фреймворк, который обучает языковые модели одновременно использовать последовательные, параллельные и агрегативные примитивы рассуждений. В отличие от стандартных методов постобучения, оптимизирующих только однопоточное последовательное рассуждение, SPIRAL объединяет эти компоненты в единый конвейер вычислений при выводе. Модель сначала генерирует независимые трассы параллельно с использованием цепочки мыслей (chain-of-thought), а затем формирует итоговую агрегативную трассу на основе этих входных данных. Весь этот процесс оптимизируется сквозным образом по отношению к награде итогового агрегированного ответа с помощью методов обучения с подкреплением для множеств и стандартных техник обучения с подкреплением. Эксперименты на задачах рассуждения демонстрируют, что SPIRAL эффективно масштабируется вместе с ресурсами вычислений при выводе. Подход превосходит GRPO по эффективности масштабирования до 11 раз и достигает на 15% более высокой производительности, когда масштабируются все три примитива вычислений.