REAR: Тестовое переориентирование предпочтений через декомпозицию вознаграждения

Авторы представляют REAR, новую архитектуру, которая расширяет масштабирование во время тестирования (TTS) на выравнивание предпочтений, моделируя задачу как проблему переориентации. Этот подход решает ограничение существующих методов TTS, которые обычно ограничиваются проверяемыми областями, такими как математика и программирование.

REAR разлагает функцию вознаграждения на две компоненты: одну, связанную с вопросом, и другую — с информацией о предпочтениях.
Метод выводит Переориентированное Вознаграждение (REAR), которое избирательно перемасштабирует пропорции этих двух членов вознаграждения.
REAR формулируется как линейная комбинация логарифмических вероятностей токенов политики, что обеспечивает вычислительную эффективность.
Она легко интегрируется с различными алгоритмами TTS, включая выбор лучшего из N и поиск по дереву.
Эксперименты демонстрируют масштабируемость для разнообразных пользовательских требований и обобщение на математические и визуальные задачи.

Эта архитектура позволяет масштабировать тестовое переориентирование для задач выравнивания предпочтений при разнообразных пользовательских требованиях без необходимости дорогостоящей курирования данных или дополнительного обучения.