В статье представлен LatentRevise — метод латентной ревизии первого порядка, предназначенный для восстановления обучающих сигналов в обучении с подкреплением по верифицируемым наградам (RLVR) для запросов, где правильные траектории редко выбираются. Оптимизируя входные эмбеддинги префикса рассуждений на основе неудачных выборок и эталонных ответов, метод генерирует полезные данные из ранее непродуктивных попыток.

  • LatentRevise оптимизирует входные эмбеддинги префикса рассуждений с использованием двух дополнительных градиентов для отхода от неудачных продолжений и приближения к эталонному ответу.
  • Обновления ограничены выпуклой оболочкой эмбеддингов словаря модели, что гарантирует соответствие изменений реальным эмбеддингам токенов, а не произвольным направлениям признаков.
  • Продолжения, сгенерированные из пересмотренных префиксов, демонстрируют самоанализ, увеличивают длительность и успешно достигают правильных ответов, которые были пропущены в исходных выборках.
  • Использование этих пересмотренных траекторий в качестве обучающих данных улучшает производительность контролируемой тонкой настройки (SFT) и RLVR на математических бенчмарках по сравнению со стандартными базовыми уровнями.

Этот подход решает проблему узкого места сложных запросов в RLVR, превращая неудачные выборки в информативные обучающие сигналы, тем самым улучшая способности модели к рассуждению на математических задачах.