SrDetection: Un marco autorreferencial para la detección de filtración de datos en LLMs de código
Los autores presentan SrDetection, un marco unificado para detectar filtración de datos en modelos de lenguaje grandes (LLMs) de código que opera tanto en configuraciones gray-box como black-box. El método genera variantes semánticamente equivalentes de muestras de referencia para identificar casos donde los datos originales son desproporcionadamente más fáciles para el modelo debido a la exposición durante el preentrenamiento.