Исследователи предлагают Psy-CoT, основанный на психологии фреймворк цепочки рассуждений, который разбивает предварительное рассуждение перед ответом на Восприятие взаимодействия, Психологическую эмпатию и Логическую конструкцию для улучшения точности персонажа. Чтобы устранить несовпадение градиентов в обучении с подкреплением, они вводят Оптимизацию политики с учетом роли (RAPO), которая использует взаимную информацию токенов профиля для асимметричного взвешивания градиентов.

  • Psy-CoT заставляет модели динамически мыслить на основе профилей, а не имитировать поверхностные паттерны через три конкретных шага рассуждения.
  • RAPO усиливает токены, специфичные для роли, при положительном преимуществе и ослабляет их при отрицательном преимуществе, чтобы предотвратить взлом награды.
  • Эксперименты на CoSER, CharacterBench и CharacterEval показывают, что Psy-CoT превосходит существующие методы ролевой игры с цепочкой рассуждений.
  • RAPO последовательно превосходит GRPO по нескольким масштабам моделей в представленных оценках.

Авторы считают это важным, поскольку это решает проблему плохой обобщающей способности за пределами распределения при контролируемой тонкой настройке и накопления взлома награды в моделях вознаграждения на основе LLM, что приводит к более точному изображению персонажа.