La représentation de l'état de la tâche découple l'état de la tâche des observations d'écran pour les agents d'interface graphique mobile

Les chercheurs présentent Task-State Representation (TSR), un cadre sans entraînement conçu pour répondre à la charge contextuelle à laquelle sont confrontés les agents d'interface graphique mobile sur le long terme. TSR découple explicitement les états de tâche persistants des observations d'écran transitoires, empêchant des problèmes tels que l'oubli des exigences initiales ou l'hallucination de progrès.

Le cadre agit comme un wrapper externe léger maintenant trois composants : un résumé global des instructions, un suivi dynamique des progrès pour les sous-objectifs et un vérificateur d'actions conscient des transitions.
Il se met à jour continuellement grâce à des comparaisons visuelles avant et après l'action afin de guider le raisonnement de l'agent sans nécessiter de modifications architecturales.
Les expériences sur quatre benchmarks d'interface graphique mobile montrent que TSR augmente jusqu'à 12 points absolus le taux de réussite sur les tâches complexes inter-applications et intensives en mémoire.

TSR guide efficacement le raisonnement de l'agent en gérant l'état séparément des entrées sensorielles, validant son efficacité sur des tâches d'interface graphique mobile difficiles.