Este trabajo introduce identificadores naturales (NIDs), que son cadenas aleatorias estructuradas como hashes criptográficos y URLs acortadas encontradas en los datos de entrenamiento de LLM, para abordar los desafíos de auditar la privacidad de los modelos de lenguaje grandes. Los NIDs permiten auditorías escalables de privacidad diferencial post-hoc sin costoso reentrenamiento y facilitan la inferencia de conjuntos de datos sin requerir conjuntos de datos privados retenidos.

  • Los métodos existentes de auditoría de privacidad a menudo requieren insertar datos canario durante el entrenamiento o acceder a conjuntos de datos no miembros retenidos no disponibles.
  • Los NIDs son cadenas aleatorias estructuradas que ocurren naturalmente y permiten la generación de cadenas aleatorias adicionales ilimitadas desde la misma distribución.
  • Estas cadenas generadas sirven como canarios alternativos para auditorías y como datos retenidos de la misma distribución para la inferencia de conjuntos de datos.
  • La evaluación demuestra que los NIDs permiten auditorías de privacidad diferencial post-hoc sin reentrenamiento.
  • La inferencia de conjuntos de datos se habilita para cualquier conjunto de datos sospechoso que contenga NIDs sin necesidad de un conjunto de datos privado no miembro retenido.

Este enfoque permite auditorías escalables y post-hoc de modelos ya entrenados e inferencia de conjuntos de datos para casos del mundo real donde los conjuntos de datos tradicionales retenidos son difíciles de construir.