Los investigadores proponen MIThinker, un modelo de pensamiento ligero que genera pensamientos terapéuticos para guiar a los agentes de consejo de Entrevista Motivacional en la selección de estrategias y la generación de respuestas. Para abordar la falta de datos de pensamientos anotados, introducen AugR1-MI, una pipeline automatizada que ingeniería inversa de los pensamientos del consejero a partir de las respuestas observadas.
- MIThinker utiliza un entrenamiento en dos etapas que combina ajuste fino supervisado y aprendizaje por refuerzo.
- La pipeline AugR1-MI realiza ingeniería inversa de los pensamientos del consejero a partir de las respuestas observadas para superar la escasez de datos.
- MindfulMI, el agente que aprovecha MIThinker, alcanza una competencia en MI comparable a la de los sistemas más avanzados.
- El sistema requiere un orden de magnitud menos de computación que las soluciones existentes.
Los autores consideran esto importante porque mejora la evaluación de la teoría de la mente y la alineación de estrategias mientras reduce significativamente los requisitos computacionales para agentes de consejo efectivos.