PACEはプロキシベンチマークを通じてエージェント型LLMの能力を予測する

研究者らは、エージェント型評価のコストを抑えつつ、少数の非エージェント型原子的能力のスコアを用いて、高価なエージェント型評価におけるLLMのパフォーマンスを正確に予測するためのプロキシベンチマークを構築するフレームワーク「PACE」を発表しました。キュレーションされたインスタンスからのスコアを対象のエージェント型ベンチマークへマッピングする回帰モデルを適合させることで、得られる PACE-Bench は費用の極めて一部で高い予測精度を実現します。

14モデルと4つのエージェント型ベンチマークにわたる実験により、PACE-Benchは leave-one-out クロスバリデーションにおける平均絶対誤差が4%未満、Spearman相関係数が0.80超のエージェントスコアを予測できることが示されました。
このフレームワークは、フルエージェント評価コストの1%未満のコストで、ペアワイズモデルランキング精度約85%を達成しています。
選択されたプロキシインスタンスの分析により、各エージェント型ベンチマークが独自に要求する特定のスキルが明らかになりました。

PACEにより、実践者は、フルエージェント評価の実行というオーバーヘッドなしに、モデル開発、選択、ルーティングの過程でエージェントパフォーマンスの信頼性の高い見積もりを得ることができます。