REAR: Realineación de preferencias en tiempo de prueba mediante descomposición de recompensas

Los autores presentan REAR, un marco novel que extiende el escalado en tiempo de prueba (TTS) a la alineación de preferencias modelando la tarea como un problema de realineación. Este enfoque aborda la limitación de los métodos TTS existentes, que típicamente se restringen a dominios verificables como matemáticas y programación.

REAR descompone la función de recompensa en dos componentes: uno relacionado con la pregunta y otro con la información de preferencia.
El método deriva una Recompensa de Realineación (REAR) que reescala selectivamente las proporciones de estos dos términos de recompensa.
REAR se formula como una combinación lineal de log-probabilidades de política a nivel de token, garantizando eficiencia computacional.
Se integra fácilmente con varios algoritmos TTS, incluyendo muestreo best-of-N y búsqueda en árbol.
Los experimentos demuestran escalabilidad para diversos requisitos de usuario y generalización a tareas matemáticas y visuales.

Este marco permite una realineación escalable en tiempo de prueba para tareas de alineación de preferencias bajo diversos requisitos de usuario sin necesidad de curación costosa de datos o entrenamiento adicional.