Исследователи предлагают MIThinker, легковесную модель мышления, которая генерирует терапевтические мысли для руководства агентами консультирования в мотивационном интервьюировании при выборе стратегии и генерации ответов. Чтобы решить проблему отсутствия аннотированных данных о мыслях, они представляют AugR1-MI — автоматизированный пайплайн, который обращает вспять процесс получения мыслей консультанта из наблюдаемых ответов.
- MIThinker использует двухэтапное обучение, сочетающее супервизорную тонкую настройку и обучение с подкреплением.
- Пайплайн AugR1-MI обращает вспять процесс получения мыслей консультанта из наблюдаемых ответов для преодоления дефицита данных.
- MindfulMI, агент, использующий MIThinker, достигает компетентности в мотивационном интервьюировании, сопоставимой с современными системами.
- Система требует на порядок меньше вычислений по сравнению с существующими решениями.
Авторы считают это важным, поскольку это улучшает оценку теории разума и согласование стратегий при значительном снижении требований к вычислениям для эффективных агентов консультирования.