Исследователи предлагают MIThinker, легковесную модель мышления, которая генерирует терапевтические мысли для руководства агентами консультирования в мотивационном интервьюировании при выборе стратегии и генерации ответов. Чтобы решить проблему отсутствия аннотированных данных о мыслях, они представляют AugR1-MI — автоматизированный пайплайн, который обращает вспять процесс получения мыслей консультанта из наблюдаемых ответов.

  • MIThinker использует двухэтапное обучение, сочетающее супервизорную тонкую настройку и обучение с подкреплением.
  • Пайплайн AugR1-MI обращает вспять процесс получения мыслей консультанта из наблюдаемых ответов для преодоления дефицита данных.
  • MindfulMI, агент, использующий MIThinker, достигает компетентности в мотивационном интервьюировании, сопоставимой с современными системами.
  • Система требует на порядок меньше вычислений по сравнению с существующими решениями.

Авторы считают это важным, поскольку это улучшает оценку теории разума и согласование стратегий при значительном снижении требований к вычислениям для эффективных агентов консультирования.