SrDetection: Un marco autorreferencial para la detección de filtración de datos en LLMs de código

Los autores presentan SrDetection, un marco unificado para detectar filtración de datos en modelos de lenguaje grandes (LLMs) de código que opera tanto en configuraciones gray-box como black-box. El método genera variantes semánticamente equivalentes de muestras de referencia para identificar casos donde los datos originales son desproporcionadamente más fáciles para el modelo debido a la exposición durante el preentrenamiento.

SrDetection contrasta el comportamiento del modelo en las muestras originales frente a las variantes generadas para señalar filtraciones sin depender de corpora de entrenamiento propietarios ni heurísticas frágiles.
El marco logra una mejora promedio en F1 de 21.52 puntos en configuraciones gray-box y 14.46 puntos en configuraciones black-box sobre líneas base sólidas.
Un estudio de 15 LLMs de código ampliamente utilizados en cuatro conjuntos de referencia revela patrones de filtración específicos del benchmark que se extienden más allá de los análisis previos basados en superposición.

Este enfoque proporciona una detección de filtración robusta e independiente de umbrales, abordando las limitaciones de los métodos existentes que requieren acceso a los datos de entrenamiento o utilizan umbrales no generalizables.