Los investigadores proponen Psy-CoT, un marco de cadena de pensamiento fundamentado en la psicología que descompone el razonamiento previo a la respuesta en Percepción de Interacción, Empatía Psicológica y Construcción Lógica para mejorar la fidelidad del personaje. Para abordar la desalineación de gradientes en el aprendizaje por refuerzo, introducen Optimización de Políticas Consciente del Rol (RAPO), que utiliza la información mutua entre tokens de perfil para ponderar los gradientes de forma asimétrica.

  • Psy-CoT obliga a los modelos a pensar dinámicamente a partir de perfiles en lugar de imitar patrones superficiales mediante tres pasos específicos de razonamiento.
  • RAPO amplifica los tokens específicos del rol bajo ventaja positiva y los atenúa bajo ventaja negativa para prevenir el engaño de recompensas.
  • Los experimentos en CoSER, CharacterBench y CharacterEval muestran que Psy-CoT supera a los métodos existentes de cadena de pensamiento para interpretación de roles.
  • RAPO supera consistentemente a GRPO en múltiples escalas de modelos en las evaluaciones reportadas.

Los autores consideran esto importante porque aborda la pobre generalización fuera de distribución del ajuste fino supervisado y la acumulación de engaño de recompensas en los modelos de recompensa basados en LLM, lo que conduce a una representación más fiel del personaje.