Естественные идентификаторы для аудита конфиденциальности и данных в больших языковых моделях

В данной работе вводятся естественные идентификаторы (NIDs), которые представляют собой структурированные случайные строки, такие как криптографические хэши и сокращенные URL-адреса, встречающиеся в обучающих данных LLM, для решения проблем аудита конфиденциальности больших языковых моделей. NIDs обеспечивают масштабируемый постфактум аудит дифференциальной конфиденциальности без дорогостоящего переобучения и способствуют выводу информации о наборе данных без необходимости использования частных отложенных наборов данных.

Существующие методы аудита конфиденциальности часто требуют вставки канареечных данных во время обучения или доступа к недоступным нечленским отложенным наборам данных.
NIDs — это естественно возникающие структурированные случайные строки, которые позволяют генерировать неограниченное количество дополнительных случайных строк из того же распределения.
Эти сгенерированные строки служат альтернативными канарейками для аудитов и отложенными данными из того же распределения для вывода информации о наборе данных.
Оценка демонстрирует, что NIDs позволяют проводить постфактум аудит дифференциальной конфиденциальности без переобучения.
Вывод информации о наборе данных становится возможным для любого подозреваемого набора данных, содержащего NIDs, без необходимости использования частного нечленского отложенного набора данных.

Этот подход позволяет проводить масштабируемые постфактум аудиты уже обученных моделей и выводить информацию о наборах данных для реальных случаев, где традиционные отложенные наборы данных трудно конструировать.