研究者らは、長期のモバイルGUIエージェントが直面するコンテキスト負荷に対処するために設計されたトレーニング不要のフレームワークであるTask-State Representation (TSR)を紹介する。TSRは、永続的なタスク状態を一時的な画面観測から明示的に分離し、初期要件の忘却や進捗のハルシネーションなどの問題を防止する。

  • このフレームワークは、グローバルな指示の要約、サブゴール用の動的な進捗トラッカー、および遷移認識型アクション検証子の3つのコンポーネントを維持する軽量な外部ラッパーとして機能する。
  • アーキテクチャの変更を必要とせずにエージェントの推論を誘導するため、前後のアクションの視覚的比較を通じて継続的に更新される。
  • 4つのモバイルGUIベンチマークでの実験により、TSRは複雑なクロスアプリケーションおよびメモリ集約型タスクにおいて成功率を最大12絶対ポイント向上させることが示された。

TSRは感覚入力とは別に状態を管理することでエージェントの推論を効果的に誘導し、困難なモバイルGUIタスクにおいてその有効性を検証した。