REVES: Усиленное обучение для масштабирования на этапе тестирования
REVES представляет двухэтапную итерационную структуру, которая улучшает логическое мышление больших языковых моделей за счёт последовательного редактирования и проверки. Метод достигает +6,5 баллов по сравнению с базовыми RL и +4,0 балла по сравнению с стандартным многократным обучением на LiveCodeBench, используя базовую модель размером 4B и меньшее количество итераций по сравнению с более крупными системами. Метод улучшает исправление ошибок и обобщается на задачи вне распределения, такие как n_queens и mini_sudoku.