MacAgentBench представляет всесторонний бенчмарк, включающий 676 задач по 25 приложениям, 60% из которых включают взаимодействие как с графическим интерфейсом, так и с командной строкой. Используя детерминированные правилу-ориентированные оценки и оценку с использованием мелких контрольных точек, было установлено, что Claude Opus 4.6 на OpenClaw достигает 73,7% Pass@1, в основном благодаря своей библиотеке навыков, а не архитектуре платформы.