Исследователи представляют Представление состояния задачи (TSR), фреймворк без обучения, предназначенный для решения проблемы перегрузки контекста у мобильных GUI-агентов с длинным горизонтом. TSR явно разделяет устойчивые состояния задачи и преходящие наблюдения экрана, предотвращая такие проблемы, как забывание начальных требований или галлюцинации прогресса.
- Фреймворк действует как легковесная внешняя обёртка, поддерживающая три компонента: глобальную сводку инструкций, динамический трекер прогресса для подцелей и верификатор действий с учётом переходов.
- Он непрерывно обновляется через визуальные сравнения до и после действия, направляя рассуждения агента без необходимости изменения архитектуры.
- Эксперименты на четырёх мобильных GUI-бенчмарках показывают, что TSR даёт увеличение успеха до 12 абсолютных пунктов на сложных кросс-приложенийых и требовательных к памяти задачах.
TSR эффективно направляет рассуждения агента, управляя состоянием отдельно от сенсорного ввода, подтверждая свою эффективность на сложных мобильных GUI-задачах.