PlanBench-XL: Метрика для планирования использования инструментов на длительных горизонтах

PlanBench-XL представляет метрику из 327 розничных задач по 1665 инструментам для оценки способности агентов на основе языковых моделей к итеративному извлечению и использованию инструментов в долгосрочном планировании. В ней включён механизм блокировки, имитирующий сбои инструментов, что показывает, что агенты, такие как GPT-5.4, снижают свою точность с 51,90% до 11,36% при серьёзных сбоях, что подчёркивает уязвимости в восстановлении и адаптации.