EnterpriseClawBench — это оценка, созданная на основе реальных сессий работы, включающая 852 воспроизводимых задач с подробной метаданными. Наилучшая конфигурация достигает лишь 0,663 (Codex с GPT-5.5), что подчёркивает необходимость многомерной оценки агентов в корпоративной среде.