Pesquisadores introduzem a Representação do Estado da Tarefa (TSR), um framework sem treinamento projetado para abordar a carga de contexto enfrentada por agentes GUI móveis de longo alcance. A TSR desacopla explicitamente os estados persistentes da tarefa das observações transitórias da tela, prevenindo problemas como esquecer requisitos iniciais ou alucinar progresso.
- O framework atua como uma wrapper externa leve mantendo três componentes: um resumo global de instruções, um rastreador dinâmico de progresso para subobjetivos e um verificador de ações consciente de transições.
- Ele atualiza continuamente por meio de comparações visuais pré e pós-ação para guiar o raciocínio do agente sem exigir modificações arquiteturais.
- Experimentos em quatro benchmarks GUI móveis mostram que a TSR produz até um aumento de 12 pontos absolutos na taxa de sucesso em tarefas complexas entre aplicativos e intensivas em memória.
A TSR guia eficazmente o raciocínio do agente gerenciando o estado separadamente da entrada sensorial, validando sua eficácia em desafiadoras tarefas GUI móveis.