Оффлайн-оценка агентных систем часто приводит к равным сравнениям в 75% случаев при использовании стандартных метрик на основе успеха. Оценка траектории на основе предпочтений снижает количество равных результатов до 35% за счёт сравнения профиля прогресса и профиля времени возврата, повышая дифференцирующую способность и эффективность использования данных. Эти результаты указывают на то, что насыщение бенчмарков может быть связано не только с данными или сложностью задачи, но и с выбором метода оценки.
arxiv
arXiv cs.LG
·
8 д назад
·
ист: 9 д назад
·
research
Оценка траектории на основе предпочтений для агентных систем
Переведено с English → Русский
Бенчмарки
| Бенчмарк | Модель | Результат |
|---|---|---|
| SWE-bench | offline preference-based trajectory evaluation | 75% |
| SWE-bench Verified | offline preference-based trajectory evaluation | 35% |