Potenciación de agentes GUI mediante exploración autónoma de experiencias y utilización de experiencias retrospectivas

Los investigadores presentan el método PEEU (Planning Experience Exploration and Utilization) para mejorar la planificación de tareas en agentes web multimodales utilizando pequeños modelos de lenguaje grande multimodales (MLLMs) de código abierto. Este enfoque explora autónomamente los entornos para descubrir experiencias y sintetiza datos de entrenamiento de alto nivel mediante la utilización de experiencias retrospectivas.

PEEU permite que los MLLMs pequeños superen la planificación débil y la generalización limitada entre sitios web aprovechando la exploración autónoma y la síntesis retrospectiva.
Se propone el Marco de Análisis Jerárquico de Descomposición de Tareas (TDHAF) para estudiar la generalización composicional a través de granularidades de tareas bajas, medias y altas.
El análisis revela que dominar habilidades atómicas de bajo nivel no garantiza competencia en planificación de alto nivel, mientras que el entrenamiento en tareas de alto nivel produce una mejor generalización fuera de la distribución (OOD).
Un modelo de 7B que utiliza PEEU alcanza un 30.6% de precisión en benchmarks del mundo real, superando al modelo Qwen2.5-VL-32B más grande.

Estos hallazgos demuestran que construir tareas de alto nivel y aprovechar las experiencias es crucial para mejorar las capacidades de planificación OOD de los MLLMs pequeños en aplicaciones de agentes GUI.