PlanBench-XL introduce un benchmark de 327 tareas minoristas en 1,665 herramientas para evaluar la capacidad de los agentes LLM de recuperar y usar herramientas de forma iterativa en la planificación a largo plazo. Incluye un mecanismo de bloqueo que simula fallos de herramientas, revelando que agentes como GPT-5.4 caen de 51.90% a 11.36% de precisión bajo interrupciones severas, destacando vulnerabilidades en la recuperación y adaptabilidad.
PlanBench-XL: Benchmark para la planificación de uso de herramientas a largo plazo
Traducido del English → Español