PlanBench-XL evalúa la planificación a largo plazo en agentes LLM a través de 1,665 herramientas mediante 327 tareas minoristas. Introduce un mecanismo de bloqueo para simular fallos de herramientas del mundo real, revelando que agentes como GPT-5.4 caen de 51.90% a 11.36% de precisión bajo interrupciones severas, destacando vulnerabilidades en la recuperación y el manejo de errores.