研究人员引入了任务状态表示(TSR),这是一种无需训练的框架,旨在解决长视域移动GUI代理面临的上下文负担问题。TSR明确地将持久的任务状态与瞬时的屏幕观测解耦,防止了如遗忘初始要求或幻觉进展等问题。
- 该框架作为一个轻量级外部包装器,维护三个组件:全局指令摘要、用于子目标的动态进度跟踪器以及感知转换的动作验证器。
- 它通过动作前后的视觉比较持续更新,以引导代理推理,而无需进行架构修改。
- 在四个移动GUI基准测试中的实验表明,TSR在复杂的跨应用和内存密集型任务上使成功率提高了多达12个绝对百分点。
TSR通过将状态与感官输入分开管理来有效指导代理的推理,并在具有挑战性的移动GUI任务上验证了其有效性。