연구자들은 고비용 에이전트 평가에서 LLM의 성능을 정확하게 예측하기 위해 소수의 비에이전트 원자적 능력 점수를 사용하는 프록시 벤치마크를 구축하는 프레임워크 PACE를 소개했습니다. 큐레이션된 인스턴스에서의 점수를 대상 에이전트 벤치마크로 매핑하는 회귀 모델을 적합시켜, 결과적으로 도출된 PACE-Bench는 비용의 극히 일부로 높은 예측 정확도를 달성합니다.

  • 14개 모델과 4개 에이전트 벤치마크에 걸친 실험 결과, PACE-Bench는 홀드아웃 교차검증 평균 절대 오차가 4% 미만이고 Spearman 상관계수가 0.80 이상인 에이전트 점수를 예측합니다.
  • 이 프레임워크는 전체 에이전트 평가 비용의 1% 미만의 비용으로 약 85%의 쌍별 모델 순위 정확도를 달성합니다.
  • 선택된 프록시 인스턴스에 대한 분석은 각 에이전트 벤치마크가 고유하게 요구하는 특정 스킬을 드러냅니다.

PACE를 통해 실무자는 전체 에이전트 평가 실행의 오버헤드 없이 모델 개발, 선택 및 라우팅 과정에서 에이전트 성능에 대한 신뢰할 수 있는 추정을 얻을 수 있습니다.