研究者らは、エージェント型評価のコストを抑えつつ、少数の非エージェント型原子的能力のスコアを用いて、高価なエージェント型評価におけるLLMのパフォーマンスを正確に予測するためのプロキシベンチマークを構築するフレームワーク「PACE」を発表しました。キュレーションされたインスタンスからのスコアを対象のエージェント型ベンチマークへマッピングする回帰モデルを適合させることで、得られる PACE-Bench は費用の極めて一部で高い予測精度を実現します。
- 14モデルと4つのエージェント型ベンチマークにわたる実験により、PACE-Benchは leave-one-out クロスバリデーションにおける平均絶対誤差が4%未満、Spearman相関係数が0.80超のエージェントスコアを予測できることが示されました。
- このフレームワークは、フルエージェント評価コストの1%未満のコストで、ペアワイズモデルランキング精度約85%を達成しています。
- 選択されたプロキシインスタンスの分析により、各エージェント型ベンチマークが独自に要求する特定のスキルが明らかになりました。
PACEにより、実践者は、フルエージェント評価の実行というオーバーヘッドなしに、モデル開発、選択、ルーティングの過程でエージェントパフォーマンスの信頼性の高い見積もりを得ることができます。