Мы предлагаем неопределенность-ориентированную дезинфицировку (UBD), метод, использующий глубокие ансамбли для оценки степени запоминания отдельных образцов в загрязненных моделях без необходимости наличия незагрязненной модели. UBD строит смещенную целевую распределение на основе неопределенности ансамбля для коррекции распределений выходов, достигая значительно лучшего соответствия незагрязненным моделям по сравнению с базовыми методами, при этом сохраняя производительность на чистых данных.
Неопределенность-ориентированная дезинфицировка для дезинфицирования LLM
Переведено с English → Русский