PACE通过代理基准预测智能体LLM能力

研究人员推出了PACE，这是一个构建代理基准的框架，利用少量非智能体原子能力的得分，准确预测LLM在昂贵智能体评估中的表现。通过将回归模型拟合到从精选实例到目标智能体基准的得分映射中，生成的PACE-Bench以极低的成本实现了高预测精度。

PACE使从业者能够在模型开发、选择和路由期间获得可靠的智能体性能估计，而无需运行完整智能体评估的开销。