研究人员推出了PACE,这是一个构建代理基准的框架,利用少量非智能体原子能力的得分,准确预测LLM在昂贵智能体评估中的表现。通过将回归模型拟合到从精选实例到目标智能体基准的得分映射中,生成的PACE-Bench以极低的成本实现了高预测精度。
- 在14个模型和4个智能体基准上的实验表明,PACE-Bench预测智能体得分的留一法交叉验证平均绝对误差低于4%,Spearman相关系数高于0.80。
- 该框架在成本不到完整智能体评估成本1%的情况下,实现了约85%的成对模型排名准确率。
- 对选定代理实例的分析揭示了每个智能体基准独特要求的具体技能。
PACE使从业者能够在模型开发、选择和路由期间获得可靠的智能体性能估计,而无需运行完整智能体评估的开销。