Un marco para evaluar habilidades agénticas a escala

Presentamos un marco para evaluar habilidades agénticas mediante la construcción de tareas realistas y la evaluación de la utilidad de las habilidades a través de la ejecución de tareas. Aplicado a 500 habilidades del mundo real, genera 1,000 tareas y rúbricas de puntuación, evaluando 19 configuraciones de modelos agénticos en modelos propietarios y de código abierto. Los resultados muestran una variación significativa en el cumplimiento de instrucciones y las mejoras de rendimiento, con las habilidades que alteran sustancialmente el comportamiento del modelo en comparación con configuraciones sin habilidades.