MIThinker: Un Pensador Optimizado por Política Plug-and-Play para el Consejo de Entrevista Motivacional

Los investigadores proponen MIThinker, un modelo de pensamiento ligero que genera pensamientos terapéuticos para guiar a los agentes de consejo de Entrevista Motivacional en la selección de estrategias y la generación de respuestas. Para abordar la falta de datos de pensamientos anotados, introducen AugR1-MI, una pipeline automatizada que ingeniería inversa de los pensamientos del consejero a partir de las respuestas observadas.

MIThinker utiliza un entrenamiento en dos etapas que combina ajuste fino supervisado y aprendizaje por refuerzo.
La pipeline AugR1-MI realiza ingeniería inversa de los pensamientos del consejero a partir de las respuestas observadas para superar la escasez de datos.
MindfulMI, el agente que aprovecha MIThinker, alcanza una competencia en MI comparable a la de los sistemas más avanzados.
El sistema requiere un orden de magnitud menos de computación que las soluciones existentes.

Los autores consideran esto importante porque mejora la evaluación de la teoría de la mente y la alineación de estrategias mientras reduce significativamente los requisitos computacionales para agentes de consejo efectivos.