Исследователи представляют LACUNA, первую платформу для отмены обучения с параметрической локализацией на основе ground-truth, чтобы устранить пробел в оценке того, действительно ли отмена обучения стирает знания из параметров модели. Платформа внедряет PII синтетических лиц в предопределенные параметры моделей на базе OLMo объемом 1B и 7B с помощью маскированного непрерывного дообучения.

  • LACUNA позволяет напрямую оценивать, направлена ли отмена обучения на веса, ответственные за хранение знаний.
  • Бенчмарки показывают, что текущие методы SOTA крайне неточны, несмотря на сильную производительность на уровне вывода.
  • Существующие методы остаются уязвимыми к атакам повторного появления даже тогда, когда они кажутся эффективными на уровне вывода.
  • Успешная локализация позволяет простому градиентному отмене обучения достигать сильного стирания и устойчивости.

Авторы публикуют LACUNA для дополнения поведенческих оценок и стимулирования дальнейших достижений в области устойчивого, основанного на локализации, отмены обучения.