SGCD вводит итеративную структуру для улучшения агентов интерфейса, решая пробелы в контроле в отклоненных состояниях. Он извлекает навыки как из успешных, так и из неудачных проходов, используя их для направления продолжения политики, смешанной с экспертными траекториями. На OSWorld-Verified SGCD повышает показатели успеха трех базовых моделей с уровня 30% до более чем 50%.
arxiv
arXiv cs.AI
·
7 д назад
·
research
Навык-ориентированная дистилляция для агентов интерфейса
Переведено с English → Русский
Важность 3/3
Новая фича по сравнению с лидерами
Новый бенчмарк-харнесс с отличиями
arXiv cs.AI
Mistral AI
Google DeepMind
OpenAI
AI agents
Evaluation & benchmarks
Reasoning models
Бенчмарки
| Бенчмарк | Модель | Результат |
|---|---|---|
| OSWorld | three base models | 50% |