SrDetection: Самоориентированная платформа для обнаружения утечки данных в кодовых LLM

Авторы представляют SrDetection, унифицированную платформу для обнаружения утечки данных в больших языковых моделях кода, работающую как в условиях gray-box, так и black-box. Метод генерирует семантически эквивалентные варианты образцов бенчмарков для выявления случаев, когда исходные данные непропорционально легче для модели из-за воздействия во время предобучения.

SrDetection сравнивает поведение модели на исходных образцах с сгенерированными вариантами, чтобы отметить утечку, не полагаясь на проприетарные обучающие корпуса или хрупкие эвристики.
Платформа достигает среднего улучшения F1 на 21.52 балла в условиях gray-box и на 14.46 балла в условиях black-box по сравнению с сильными базовыми моделями.
Исследование 15 широко используемых Code LLM на четырех бенчмарках выявляет специфичные для бенчмарка паттерны утечки, выходящие за рамки предыдущего анализа на основе перекрытий.

Этот подход обеспечивает надежное обнаружение утечки, независимое от порогов, устраняя ограничения существующих методов, требующих доступа к обучающим данным или использующих не обобщаемые пороги.