Авторы представляют локальную маршрутизацию ветвей (LBR), фреймворк на уровне токенов, предназначенный для улучшения рассуждений языковых моделей за счет эффективного масштабирования на этапе тестирования. LBR расширяет небольшое локальное дерево предварительного просмотра и направляет все сэмплированные ветви через модель, используя легкий маршрутизатор для выбора поддерева глубины 1 для фиксации. Этот подход позволяет каждому решению по токену использовать доказательства из кандидатов локального будущего без вычислительных затрат полного поиска на уровне решения. Метод использует процесс декодирования prune-shift-grow (отсечение-сдвиг-рост), который сохраняет дискретные идентичности ветвей и определяет вычисляемую вероятность траектории дерева. Таким образом, LBR позволяет сквозное обучение с подкреплением с верифицируемыми наградами, совместно оптимизируя базовую модель и маршрутизатор по тому же принципу отношения правдоподобия, что и дискретное RLVR для токенов. Экспериментальные результаты на синтетических задачах иерархического планирования демонстрируют, что скрытые состояния после кандидатов предоставляют полезные доказательства для маршрутизации. Кроме того, бенчмарки в области математических рассуждений показывают, что LBR улучшает метрики Pass@1 и Pass@32 по сравнению с дискретным цепочечным мышлением (chain-of-thought) и другими базовыми методами.