EnterpriseClawBench es un benchmark construido a partir de sesiones reales en el lugar de trabajo, con 852 tareas reproducibles y metadatos detallados. La mejor configuración logra solo 0.663 (Codex con GPT-5.5), lo que resalta la necesidad de una evaluación multidimensional de los agentes empresariales.