연구자들은 장기적인 모바일 GUI 에이전트가 직면한 컨텍스트 부담을 해결하기 위해 설계된 학습 없는 프레임워크인 Task-State Representation (TSR)을 소개합니다. TSR은 영구적인 작업 상태를 일시적인 화면 관측에서 명시적으로 분리하여 초기 요구사항 잊어버림이나 진행 상황의 환각(hallucination)과 같은 문제를 방지합니다.

  • 이 프레임워크는 글로벌 명령 요약, 하위 목표용 동적 진행 상황 추적기, 그리고 전이 인식 액션 검증자를 유지하는 경량 외부 래퍼로 작동합니다.
  • 아키텍처 수정 없이 에이전트의 추론을 안내하기 위해 전후 액션 시각 비교를 통해 지속적으로 업데이트됩니다.
  • 네 가지 모바일 GUI 벤치마크에 걸친 실험 결과, TSR은 복잡한 크로스 애플리케이션 및 메모리 집약적 작업에서 성공률을 최대 12 절대 포인트 증가시키는 것으로 나타났습니다.

TSR은 감각 입력과 별도로 상태를 관리하여 에이전트의 추론을 효과적으로 안내하며, 어려운 모바일 GUI 작업에서 그 유효성을 검증했습니다.