VIMPO: критерий-бесплатная оптимизация политики для больших языковых моделей

VIMPO представляет метод критерий-бесплатной оптимизации политики, который получает функцию значений, имплицированную политикой, из обучения по репликации с регуляризацией КЛ. Он позволяет интегрировать вознаграждение с верификацией без обучения критерия и превосходит GRPO на математических тестах, особенно при шумных вознаграждениях.

Бенчмарки

Бенчмарк	Модель	Результат
AIME 2024	VIMPO	—
AIME 2025	VIMPO	—
MATH-500	VIMPO	—

Бенчмарк

Модель

Результат

AIME 2024

VIMPO

—

AIME 2025

VIMPO

—

MATH-500

VIMPO

—