Pesquisadores introduzem o PACE, um framework que constrói benchmarks proxy para prever com precisão o desempenho de um LLM em avaliações agênticas caras usando pontuações de um pequeno subconjunto de capacidades atômicas não agênticas. Ao ajustar um modelo de regressão para mapear pontuações de instâncias curadas para benchmarks agênticos alvo, o PACE-Bench resultante alcança alta precisão preditiva por uma fração do custo.

  • Experimentos em 14 modelos e 4 benchmarks agênticos mostram que o PACE-Bench prevê pontuações agênticas com erro absoluto médio de validação cruzada leave-one-out abaixo de 4% e correlação de Spearman acima de 0.80.
  • O framework alcança cerca de 85% de precisão no ranking por pares de modelos enquanto custa menos de 1% do custo total da avaliação agêntica.
  • A análise de instâncias proxy selecionadas revela quais habilidades específicas cada benchmark agêntico exige exclusivamente.

O PACE permite que profissionais obtenham estimativas confiáveis do desempenho agêntico durante o desenvolvimento, seleção e roteamento de modelos sem a sobrecarga de executar avaliações completas de agentes.