AgentCIBench оценивает риски приватности в агентах, использующих компьютер
AgentCIBench представляет бенчмарк для оценки рисков приватности в агентах, использующих компьютер. Он выявляет три ключевых режима сбоев — визуальная совместная локация, избыточное раскрытие при неясных задачах и несоответствие получателя — и показывает, что 11 из 15 оцененных агентов раскрывают персональные данные в более чем 50% сценариев, при среднем уровне утечки 67,9%.