REVES представляет двухэтапную итерационную структуру, которая улучшает логическое мышление больших языковых моделей за счёт последовательного пересмотра и проверки. Метод достигает +6,5 баллов по сравнению с базовыми RL и +4,0 баллов по сравнению с стандартным многократным обучением на LiveCodeBench, используя базовую модель размером 4B и меньшее количество итераций, чем большие эволюционные системы. Метод улучшает исправление ошибок и обобщается на задачи за пределами распределения, такие как n_queens и mini_sudoku.
arxiv
arXiv cs.LG
·
7 д назад
·
research
REVES: Усиленное обучение для масштабирования на этапе тестирования
Переведено с English → Русский
Важность 3/3
Обходит бенчмарк топ-лаборатории
Новая фича по сравнению с лидерами
arXiv cs.LG
OpenAI
Google DeepMind
Meta AI
Code generation
Reasoning models
Training methods
Бенчмарки
| Бенчмарк | Модель | Результат |
|---|---|---|
| LiveCodeBench | REVES | 6.5pts |