REVES представляет двухэтапную итерационную структуру, которая улучшает логическое мышление больших языковых моделей за счёт последовательного редактирования и проверки. Метод достигает +6,5 баллов по сравнению с базовыми RL и +4,0 балла по сравнению с стандартным многократным обучением на LiveCodeBench, используя базовую модель размером 4B и меньшее количество итераций по сравнению с более крупными системами. Метод улучшает исправление ошибок и обобщается на задачи вне распределения, такие как n_queens и mini_sudoku.
arxiv
arXiv cs.CL
·
7 д назад
·
research
REVES: Усиленное обучение для масштабирования на этапе тестирования
Переведено с English → Русский
Важность 3/3
Обходит бенчмарк топ-лаборатории
Новая фича по сравнению с лидерами
arXiv cs.CL
OpenAI
Google DeepMind
Meta AI
Code generation
Reasoning models
Training methods
Бенчмарки
| Бенчмарк | Модель | Результат |
|---|---|---|
| LiveCodeBench | REVES | 6.5pts |