arxiv arXiv cs.AI · hace 1 h · fuente: hace 11 d · research

Destilación de continuación guiada por habilidades para agentes GUI

Traducido del English → Español

SGCD introduce un marco iterativo para mejorar los agentes GUI abordando las brechas de supervisión en estados fuera de trayectoria. Extrae habilidades tanto de rollouts exitosos como fallidos, utilizándolas para guiar continuaciones de políticas que se mezclan con trayectorias expertas. En OSWorld-Verified, SGCD aumenta las tasas de éxito de tres modelos base desde el 30% bajo hasta más del 50%.

Importancia 3/3 Nueva función frente a los líderes Nuevo entorno de evaluación con diferenciadores arXiv cs.AI Mistral AI Google DeepMind OpenAI AI agents Evaluation & benchmarks Reasoning models

Benchmarks

Benchmark	Modelo	Puntuación
OSWorld	three base models	50%

Leer original