Оценка траектории на основе предпочтений для агентных систем

Оффлайн-оценка агентных систем часто приводит к равным сравнениям в 75% случаев при использовании стандартных метрик на основе успеха. Оценка траектории на основе предпочтений снижает количество равных результатов до 35% за счёт сравнения профиля прогресса и профиля времени возврата, повышая дифференцирующую способность и эффективность использования данных. Эти результаты указывают на то, что насыщение бенчмарков может быть связано не только с данными или сложностью задачи, но и с выбором метода оценки.

Бенчмарк	Модель	Результат
SWE-bench	offline preference-based trajectory evaluation	75%
SWE-bench Verified	offline preference-based trajectory evaluation	35%

Бенчмарки