VIMPO представляет метод критерий-бесплатной оптимизации политики, который получает функцию значений, имплицированную политикой, из обучения по репликации с регуляризацией КЛ. Он позволяет интегрировать вознаграждение с верификацией без обучения критерия и превосходит GRPO на математических тестах, особенно при шумных вознаграждениях.
arxiv
arXiv cs.LG
·
6 д назад
·
research
VIMPO: критерий-бесплатная оптимизация политики для больших языковых моделей
Переведено с English → Русский
Важность 3/3
Обходит бенчмарк топ-лаборатории
Новая фича по сравнению с лидерами
arXiv cs.LG
OpenAI
Google DeepMind
Meta AI
Evaluation & benchmarks
Reasoning models
Training methods