Los autores presentan REAR, un marco novel que extiende el escalado en tiempo de prueba (TTS) a la alineación de preferencias modelando la tarea como un problema de realineación. Este enfoque aborda la limitación de los métodos TTS existentes, que típicamente se restringen a dominios verificables como matemáticas y programación.
- REAR descompone la función de recompensa en dos componentes: uno relacionado con la pregunta y otro con la información de preferencia.
- El método deriva una Recompensa de Realineación (REAR) que reescala selectivamente las proporciones de estos dos términos de recompensa.
- REAR se formula como una combinación lineal de log-probabilidades de política a nivel de token, garantizando eficiencia computacional.
- Se integra fácilmente con varios algoritmos TTS, incluyendo muestreo best-of-N y búsqueda en árbol.
- Los experimentos demuestran escalabilidad para diversos requisitos de usuario y generalización a tareas matemáticas y visuales.
Este marco permite una realineación escalable en tiempo de prueba para tareas de alineación de preferencias bajo diversos requisitos de usuario sin necesidad de curación costosa de datos o entrenamiento adicional.