Локальная маршрутизация ветвей: эффективное обучаемое масштабирование на этапе тестирования для языковых моделей

Авторы представляют локальную маршрутизацию ветвей (LBR), фреймворк на уровне токенов, предназначенный для улучшения рассуждений языковых моделей за счет эффективного масштабирования на этапе тестирования. LBR расширяет небольшое локальное дерево предварительного просмотра и направляет все сэмплированные ветви через модель, используя легкий маршрутизатор для выбора поддерева глубины 1 для фиксации. Этот подход позволяет каждому решению по токену использовать доказательства из кандидатов локального будущего без вычислительных затрат полного поиска на уровне решения. Метод использует процесс декодирования prune-shift-grow (отсечение-сдвиг-рост), который сохраняет дискретные идентичности ветвей и определяет вычисляемую вероятность траектории дерева. Таким образом, LBR позволяет сквозное обучение с подкреплением с верифицируемыми наградами, совместно оптимизируя базовую модель и маршрутизатор по тому же принципу отношения правдоподобия, что и дискретное RLVR для токенов. Экспериментальные результаты на синтетических задачах иерархического планирования демонстрируют, что скрытые состояния после кандидатов предоставляют полезные доказательства для маршрутизации. Кроме того, бенчмарки в области математических рассуждений показывают, что LBR улучшает метрики Pass@1 и Pass@32 по сравнению с дискретным цепочечным мышлением (chain-of-thought) и другими базовыми методами.