Los autores proponen un marco de ajuste fino basado en aprendizaje por refuerzo que utiliza la evaluación autónoma de visión y lenguaje como una señal de supervisión escalable para agentes de GUI, eliminando la necesidad de etiquetas manuales o heurísticas específicas de la tarea. Al tratar los comentarios del evaluador como un canal de recompensa binario ruidoso y derivar un estimador corregido por ruido para la Optimización de Política Próxima (Proximal Policy Optimization), el método aborda la dificultad de obtener recompensas legibles por máquina en entornos de escritorio de propósito general.
- El marco utiliza un Modelo de Visión y Lenguaje para juzgar la finalización de la tarea basándose en las capturas de pantalla finales y las instrucciones originales, sin intervención manual durante la optimización de la política.
- Se deriva un estimador de recompensa corregido por ruido específicamente para la Optimización de Política Próxima (Proximal Policy Optimization) para tener en cuenta a los evaluadores autónomos imperfectos.
- Los experimentos en macOSWorld, Windows Agent Arena y OSWorld demuestran que las recompensas del evaluador corregido superan a las líneas base de cero disparos (zero-shot) y al ajuste fino con recompensas crudas del evaluador.
- El enfoque mejora las tasas de éxito en un promedio de 12.6 puntos porcentuales sobre el rendimiento de cero disparos y 5.1 puntos sobre el ajuste fino con recompensas crudas del evaluador.
Este trabajo demuestra que la evaluación autónoma puede servir como una señal de recompensa práctica para el aprendizaje por refuerzo en entornos de GUI cuando el ruido del evaluador se modela y corrige explícitamente.