Аудит забывания в языковых моделях с ограниченной памятью выявляет извлечение как основной источник остаточных знаний

Исследование предлагает причинно-следственную аудититорскую рамку для оценки фактического удаления в Языковых Моделях с Ограниченной Памятью (LMLMs), которые выносят знания в базы данных для процесса забывания. Рамка изолирует параметрическую утечку от корректности, опосредованной извлечением, и артефактов путем изменения состояний баз данных во время вывода.

Авторы протестировали 12,228 удалений с замыканием псевдонимов по тринадцати базам данных с четырьмя адверсариальными топологиями и шестью формулировками промптов.
Параметрическая утечка оказалась близка к нулю, что означает, что модель редко возвращает удаленные ответы без извлечения.
Остаточные знания сохраняются преимущественно через извлечение ближайших соседей, со скоростями от 0.7% до 13.6% в зависимости от топологии базы данных.
Формулировка промпта не контролировала независимо выживание удаленных фактов.

Результаты указывают на то, что для этого класса LMLM эффективность забывания определяется управлением графом извлечения администратором базы данных, а не внутренними параметрами модели.