CFAgentBench introduce un entorno reproducible y autoalojable con 1.014 tareas calificables por máquina en ocho dominios, basado en fuentes del mundo real. Cuenta con 40 tareas validadas por oráculo con evaluadores ejecutables que miden la corrección funcional mediante diferencias de estado y expresiones regulares de salida, incluyendo un guardián de movimiento de dinero que requiere aprobación humana para los pagos. Un hallazgo clave es que los mejores agentes pierden el 43% de sus éxitos al repetir tareas bajo decodificación con temperatura-0, lo que indica que el rendimiento en un solo intento no refleja la capacidad de implementación en el mundo real.