OPERA: Согласование открытого рассуждения посредством объективного обучения с подкреплением на основе перплексии

Фреймворк OPERA решает проблему нестабильности применения обучения с подкреплением к задачам с открытым ответом, заменяя внешние модели-судьи внутренними наградами, полученными из динамики перплексии. Этот подход количественно оценивает снижение неопределенности в критических состояниях рефлексии, устраняя стилистические смещения и позиционные несоответствия, характерные для систем LLM-as-a-judge. На этапе холодного старта метод использует направляющие слова для синтеза разнообразных цепочек рассуждений и применяет роллауты с приоритетом по перплексии для выявления логически согласованных ветвей. Этот конвейер генерирует крупномасштабный набор данных из 20 000 высококачественных траекторий рассуждения для обучения. Внедрение OPERA на модель Qwen3-8B устанавливает новый уровень state-of-the-art среди моделей с открытым исходным кодом. Система достигает паритета или превосходит проприетарные модели, такие как Gemini2.5 и MiniMax-M2.5, в конкретных задачах с открытым ответом. Эмпирические оценки подтверждают масштабируемость и эффективность данной стратегии согласования на основе объективной перплексии.