REAR: Тестовое переориентирование предпочтений через декомпозицию вознаграждения
Авторы представляют REAR, новую архитектуру, которая расширяет масштабирование во время тестирования (TTS) на выравнивание предпочтений, моделируя задачу как проблему переориентации. Этот подход решает ограничение существующих методов TTS, которые обычно ограничиваются проверяемыми областями, такими как математика и программирование.