arxiv arXiv cs.CL · hace 2 h · fuente: hace 5 d · research

EnterpriseClawBench: Se lanza el benchmark de agentes del mundo real

Traducido del English → Español

EnterpriseClawBench es un benchmark construido a partir de sesiones reales en el lugar de trabajo, con 852 tareas reproducibles y metadatos detallados. La mejor configuración logra solo 0.663 (Codex con GPT-5.5), lo que resalta la necesidad de una evaluación multidimensional de los agentes empresariales.

Importancia 2/3 Nuevo entorno de evaluación con diferenciadores arXiv cs.CL AI agents Evaluation & benchmarks

Leer original