ReLAR представляет рамку на основе репликации, которая последовательно улучшает скрытые состояния для повышения стабильности рассуждений больших языковых моделей. Она использует обученные контроллеры глубины и действий, тренированные с помощью градиентов политики, для адаптивного определения шагов уточнения, обеспечивая лучшую точность и качество генерации по сравнению с явными методами рассуждения при меньшей нагрузке на инференс.