Identificadores naturales para privacidad y auditorías de datos en modelos de lenguaje grandes
Este trabajo introduce identificadores naturales (NIDs), que son cadenas aleatorias estructuradas como hashes criptográficos y URLs acortadas encontradas en los datos de entrenamiento de LLM, para abordar los desafíos de auditar la privacidad de los modelos de lenguaje grandes. Los NIDs permiten auditorías escalables de privacidad diferencial post-hoc sin costoso reentrenamiento y facilitan la inferencia de conjuntos de datos sin requerir conjuntos de datos privados retenidos.