LACUNA: Платформа для оценки точности локализации при отмене обучения LLM

Исследователи представляют LACUNA, первую платформу для отмены обучения с параметрической локализацией на основе ground-truth, чтобы устранить пробел в оценке того, действительно ли отмена обучения стирает знания из параметров модели. Платформа внедряет PII синтетических лиц в предопределенные параметры моделей на базе OLMo объемом 1B и 7B с помощью маскированного непрерывного дообучения.

LACUNA позволяет напрямую оценивать, направлена ли отмена обучения на веса, ответственные за хранение знаний.
Бенчмарки показывают, что текущие методы SOTA крайне неточны, несмотря на сильную производительность на уровне вывода.
Существующие методы остаются уязвимыми к атакам повторного появления даже тогда, когда они кажутся эффективными на уровне вывода.
Успешная локализация позволяет простому градиентному отмене обучения достигать сильного стирания и устойчивости.

Авторы публикуют LACUNA для дополнения поведенческих оценок и стимулирования дальнейших достижений в области устойчивого, основанного на локализации, отмены обучения.