Исследователи представляют LACUNA, первую платформу для отмены обучения с параметрической локализацией на основе ground-truth, чтобы устранить пробел в оценке того, действительно ли отмена обучения стирает знания из параметров модели. Платформа внедряет PII синтетических лиц в предопределенные параметры моделей на базе OLMo объемом 1B и 7B с помощью маскированного непрерывного дообучения.
- LACUNA позволяет напрямую оценивать, направлена ли отмена обучения на веса, ответственные за хранение знаний.
- Бенчмарки показывают, что текущие методы SOTA крайне неточны, несмотря на сильную производительность на уровне вывода.
- Существующие методы остаются уязвимыми к атакам повторного появления даже тогда, когда они кажутся эффективными на уровне вывода.
- Успешная локализация позволяет простому градиентному отмене обучения достигать сильного стирания и устойчивости.
Авторы публикуют LACUNA для дополнения поведенческих оценок и стимулирования дальнейших достижений в области устойчивого, основанного на локализации, отмены обучения.