Para peneliti memperkenalkan Task-State Representation (TSR), sebuah kerangka kerja tanpa pelatihan yang dirancang untuk mengatasi beban konteks yang dihadapi oleh agen GUI seluler jangka panjang. TSR secara eksplisit memisahkan status tugas yang persisten dari pengamatan layar yang transien, mencegah masalah seperti melupakan persyaratan awal atau halusinasi kemajuan.
- Kerangka kerja ini bertindak sebagai pembungkus eksternal ringan yang mempertahankan tiga komponen: ringkasan instruksi global, pelacak kemajuan dinamis untuk sub-tujuan, dan verifier aksi yang sadar transisi.
- Kerangka kerja ini terus diperbarui melalui perbandingan visual sebelum dan sesudah aksi untuk membimbing penalaran agen tanpa memerlukan modifikasi arsitektur.
- Eksperimen di empat benchmark GUI seluler menunjukkan bahwa TSR menghasilkan peningkatan hingga 12 poin absolut dalam tingkat keberhasilan pada tugas lintas-aplikasi yang kompleks dan intensif memori.
TSR secara efektif membimbing penalaran agen dengan mengelola status secara terpisah dari input sensorik, memvalidasi efektivitasnya pada tugas GUI seluler yang menantang.