EnterpriseClawBench es un benchmark construido a partir de sesiones reales en el lugar de trabajo, con 852 tareas reproducibles y metadatos detallados. La mejor configuración logra solo 0.663 (Codex con GPT-5.5), lo que resalta la necesidad de una evaluación multidimensional de los agentes empresariales.
EnterpriseClawBench: Se lanza el benchmark de agentes del mundo real
Traducido del English → Español