TRAP оценивает, насколько хорошо модели выполняют задачи с использованием приватных данных без их утечки. При анализе 22 моделей все показывают не тривиальную утечку приватной информации, причем способность следовать инструкциям связана с более высокой утечкой. Структурная изоляция приватных полей предотвращает утечку, заменяя приватные поля на хеш-ключи, сохраняя точность выполнения задач без ущерба для приватности.
TRAP: Бенчмарк для выполнения задач и устойчивости к активному извлечению приватной информации
Переведено с English → Русский