Los investigadores presentan PACE, un marco que construye benchmarks proxy para predecir con precisión el rendimiento de un LLM en evaluaciones agénticas costosas utilizando puntuaciones de un pequeño subconjunto de capacidades atómicas no agénticas. Al ajustar un modelo de regresión para mapear puntuaciones de instancias curadas a benchmarks agénticos objetivo, el PACE-Bench resultante logra una alta precisión predictiva a una fracción del costo.

  • Los experimentos en 14 modelos y 4 benchmarks agénticos muestran que PACE-Bench predice las puntuaciones agénticas con un error absoluto medio de validación cruzada leave-one-out inferior al 4% y una correlación de Spearman superior a 0.80.
  • El marco logra alrededor del 85% de precisión en el ranking por pares de modelos mientras cuesta menos del 1% del costo total de la evaluación agéntica.
  • El análisis de instancias proxy seleccionadas revela qué habilidades específicas demanda cada benchmark agéntico de forma única.

PACE permite a los profesionales obtener estimaciones confiables del rendimiento agéntico durante el desarrollo, selección y enrutamiento de modelos sin la sobrecarga de ejecutar evaluaciones de agentes completas.