Исследователи предлагают метод PEEU (Planning Experience Exploration and Utilization) для улучшения планирования задач в мультимодальных веб-агентах с использованием небольших открытых мультимодальных больших языковых моделей (MLLM). Этот подход автономно исследует окружения для обнаружения опыта и синтезирует высокоуровневые обучающие данные посредством использования ретроспективного опыта.
- PEEU позволяет небольшим MLLM преодолевать слабое планирование и ограниченную обобщающую способность между сайтами за счёт автономного исследования и ретроспективного синтеза.
- Предлагается Иерархическая аналитическая框架 декомпозиции задач (TDHAF) для изучения композиционного обобщения на низких, средних и высоких уровнях детализации задач.
- Анализ показывает, что освоение низкоуровневых атомарных навыков не гарантирует компетентности в высокоуровневом планировании, тогда как обучение на высокоуровневых задачах обеспечивает более сильное обобщение за пределами распределения (OOD).
- Модель объёмом 7B, использующая PEEU, достигает точности 30.6% на реальных бенчмарках, превосходя более крупную модель Qwen2.5-VL-32B.
Эти результаты демонстрируют, что конструирование высокоуровневых задач и использование опыта имеют решающее значение для улучшения способностей к планированию за пределами распределения (OOD) небольших MLLM в приложениях GUI-агентов.