Авторы предлагают фреймворк тонкой настройки на основе обучения с подкреплением, который использует автономную оценку на основе зрительно-языковых моделей в качестве масштабируемого сигнала надзора для агентов графического интерфейса, устраняя необходимость в ручных метках или эвристиках, специфичных для задач. Рассматривая обратную связь от оценщика как зашумленный бинарный канал вознаграждения и выводя оценщик с коррекцией шума для Proximal Policy Optimization, метод решает проблему получения машиночитаемых вознаграждений в открытых настольных средах.

  • Фреймворк использует зрительно-языковую модель для оценки завершения задачи на основе финальных скриншотов и исходных инструкций без ручного вмешательства во время оптимизации политики.
  • Для Proximal Policy Optimization выведен оценщик вознаграждения с коррекцией шума, чтобы учесть несовершенство автономных оценщиков.
  • Эксперименты в macOSWorld, Windows Agent Arena и OSWorld показывают, что вознаграждения от скорректированных оценщиков превосходят нульшотные базовые линии и грубую тонкую настройку оценщика.
  • Подход повышает частоту успеха в среднем на 12,6 процентных пункта по сравнению с нульшотной производительностью и на 5,1 пункта по сравнению с грубой тонкой настройкой оценщика.

Эта работа демонстрирует, что автономная оценка может служить практическим сигналом вознаграждения для обучения с подкреплением в средах графического интерфейса, когда шум оценщика явно моделируется и корректируется.