MacAgentBench introduce un benchmark integral con 676 tareas en 25 aplicaciones, el 60% de las cuales involucran interacciones tanto de GUI como de CLI. Utiliza evaluación determinista basada en reglas y puntuación multi-punto de gran detalle, revelando que Claude Opus 4.6 en OpenClaw alcanza un 73.7% Pass@1, principalmente debido a su biblioteca de habilidades en lugar del diseño del framework.