Обучение с подкреплением для агентов управления компьютером с автономной оценкой

Авторы предлагают фреймворк тонкой настройки на основе обучения с подкреплением, который использует автономную оценку на основе зрительно-языковых моделей в качестве масштабируемого сигнала надзора для агентов графического интерфейса, устраняя необходимость в ручных метках или эвристиках, специфичных для задач. Рассматривая обратную связь от оценщика как зашумленный бинарный канал вознаграждения и выводя оценщик с коррекцией шума для Proximal Policy Optimization, метод решает проблему получения машиночитаемых вознаграждений в открытых настольных средах.

Фреймворк использует зрительно-языковую модель для оценки завершения задачи на основе финальных скриншотов и исходных инструкций без ручного вмешательства во время оптимизации политики.
Для Proximal Policy Optimization выведен оценщик вознаграждения с коррекцией шума, чтобы учесть несовершенство автономных оценщиков.
Эксперименты в macOSWorld, Windows Agent Arena и OSWorld показывают, что вознаграждения от скорректированных оценщиков превосходят нульшотные базовые линии и грубую тонкую настройку оценщика.
Подход повышает частоту успеха в среднем на 12,6 процентных пункта по сравнению с нульшотной производительностью и на 5,1 пункта по сравнению с грубой тонкой настройкой оценщика.

Эта работа демонстрирует, что автономная оценка может служить практическим сигналом вознаграждения для обучения с подкреплением в средах графического интерфейса, когда шум оценщика явно моделируется и корректируется.

Бенчмарк	Модель	Результат
OSWorld	proposed RL fine-tuning framework	12.6pts
Windows Agent Arena	proposed RL fine-tuning framework	12.6pts

Бенчмарки