Улучшение универсальных агентов ролевой игры на основе психологии обоснованного рассуждения и оптимизации политики с учетом роли
Исследователи предлагают Psy-CoT, основанный на психологии фреймворк цепочки рассуждений, который разбивает предварительное рассуждение перед ответом на Восприятие взаимодействия, Психологическую эмпатию и Логическую конструкцию для улучшения точности персонажа. Чтобы устранить несовпадение градиентов в обучении с подкреплением, они вводят Оптимизацию политики с учетом роли (RAPO), которая использует взаимную информацию токенов профиля для асимметричного взвешивания градиентов.