Исследователи представляют PACE, фреймворк, который конструирует прокси-бенчмарки для точного прогнозирования производительности LLM в дорогостоящих агентных оценках на основе оценок небольшой подмножества неагентных атомарных способностей. Путем подгонки регрессионной модели для отображения оценок из курируемых экземпляров на целевые агентные бенчмарки, получившийся PACE-Bench достигает высокой предсказательной точности за долю стоимости.
- Эксперименты с 14 моделями и 4 агентными бенчмарками показывают, что PACE-Bench предсказывает агентные оценки со средним абсолютным отклонением при кросс-валидации методом leave-one-out менее 4% и корреляцией Спирмена выше 0.80.
- Фреймворк достигает около 85% точности парного ранжирования моделей, обходясь менее чем в 1% от полной стоимости агентной оценки.
- Анализ выбранных прокси-экземпляров выявляет, какие конкретные навыки требует каждый агентный бенчмарк.
PACE позволяет практикам получать надежные оценки агентной производительности во время разработки, выбора и маршрутизации моделей без накладных расходов на запуск полных агентных оценок.