ReLAR: Регулирование скрытых состояний на основе репликации для стабильного рассуждения больших языковых моделей
ReLAR представляет рамку на основе репликации, которая последовательно улучшает скрытые состояния для повышения стабильности рассуждений больших языковых моделей. Она использует обученные контроллеры глубины и действий, тренированные с помощью градиентов политики, для адаптивного определения шагов уточнения, обеспечивая лучшую точность и качество генерации по сравнению с явными методами рассуждения при меньшей нагрузке на инференс.