Aprendizaje por Refuerzo para Agentes de Uso Informático con Evaluación Autónoma
Los autores proponen un marco de ajuste fino basado en aprendizaje por refuerzo que utiliza la evaluación autónoma de visión y lenguaje como una señal de supervisión escalable para agentes de GUI, eliminando la necesidad de etiquetas manuales o heurísticas específicas de la tarea. Al tratar los comentarios del evaluador como un canal de recompensa binario ruidoso y derivar un estimador corregido por ruido para la Optimización de Política Próxima (Proximal Policy Optimization), el método aborda la dificultad de obtener recompensas legibles por máquina en entornos de escritorio de propósito general.