Естественные идентификаторы для аудита конфиденциальности и данных в больших языковых моделях
В данной работе вводятся естественные идентификаторы (NIDs), которые представляют собой структурированные случайные строки, такие как криптографические хэши и сокращенные URL-адреса, встречающиеся в обучающих данных LLM, для решения проблем аудита конфиденциальности больших языковых моделей. NIDs обеспечивают масштабируемый постфактум аудит дифференциальной конфиденциальности без дорогостоящего переобучения и способствуют выводу информации о наборе данных без необходимости использования частных отложенных наборов данных.