El Benchmark AFTER Evalúa la Memoria Procedural en Agentes LLM
AFTER introduce un benchmark de 382 tareas empresariales en seis roles y 22 habilidades para evaluar la transferencia de habilidades entre tareas, roles y modelos. Los resultados muestran que la memoria procedural mejora el rendimiento en 3.7-6.7 puntos por refinamiento y alcanza una precisión cruzada entre modelos del 73.1%, con algunas habilidades generalizándose ampliamente y otras especializándose en flujos de trabajo específicos del rol.