Les chercheurs présentent PACE, un cadre qui construit des benchmarks proxy pour prédire avec précision les performances d'un LLM sur des évaluations agents coûteuses en utilisant les scores d'un petit sous-ensemble de capacités atomiques non-agents. En ajustant un modèle de régression pour mapper les scores d'instances curatées vers des benchmarks agents cibles, le PACE-Bench résultant atteint une haute précision prédictive à une fraction du coût.

  • Les expériences sur 14 modèles et 4 benchmarks agents montrent que le PACE-Bench prédit les scores agents avec une erreur absolue moyenne de validation croisée leave-one-out inférieure à 4 % et un coefficient de corrélation de Spearman supérieur à 0,80.
  • Le cadre atteint environ 85 % de précision dans le classement par paires des modèles tout en coûtant moins de 1 % du coût total de l'évaluation agent.
  • L'analyse des instances proxy sélectionnées révèle quelles compétences spécifiques chaque benchmark agent exige de manière unique.

PACE permet aux praticiens d'obtenir des estimations fiables des performances agents durant le développement, la sélection et le routage des modèles, sans la surcharge liée à l'exécution d'évaluations agents complètes.