La Representación del Estado de la Tarea desacopla el estado de la tarea de las observaciones de pantalla para agentes GUI móviles

Los investigadores presentan la Representación del Estado de la Tarea (TSR), un marco sin entrenamiento diseñado para abordar la carga de contexto que enfrentan los agentes GUI móviles de largo alcance. TSR desacopla explícitamente los estados persistentes de la tarea de las observaciones transitorias de la pantalla, evitando problemas como olvidar los requisitos iniciales o alucinar el progreso.

El marco actúa como un envoltorio externo ligero que mantiene tres componentes: un resumen global de instrucciones, un rastreador dinámico de progreso para subobjetivos y un verificador de acciones consciente de las transiciones.
Se actualiza continuamente mediante comparaciones visuales pre y post-acción para guiar el razonamiento del agente sin requerir modificaciones arquitecturales.
Los experimentos en cuatro benchmarks GUI móviles muestran que TSR produce hasta un aumento de 12 puntos absolutos en la tasa de éxito en tareas complejas entre aplicaciones e intensivas en memoria.

TSR guía eficazmente el razonamiento del agente gestionando el estado por separado de la entrada sensorial, validando su efectividad en desafiantes tareas GUI móviles.