Mejora de agentes de interpretación de roles generales mediante razonamiento basado en psicología y optimización de políticas consciente del rol
Los investigadores proponen Psy-CoT, un marco de cadena de pensamiento fundamentado en la psicología que descompone el razonamiento previo a la respuesta en Percepción de Interacción, Empatía Psicológica y Construcción Lógica para mejorar la fidelidad del personaje. Para abordar la desalineación de gradientes en el aprendizaje por refuerzo, introducen Optimización de Políticas Consciente del Rol (RAPO), que utiliza la información mutua entre tokens de perfil para ponderar los gradientes de forma asimétrica.