Регуляризация активаций, направляемая SAE, для непрерывного обучения больших языковых моделей

В данной статье предлагается новый подход к проблеме катастрофического забывания в больших языковых моделях за счёт регуляризации в пространстве активаций с использованием предварительно обученных разреженных автоэнкодеров (SAE) в качестве словаря моносемантических признаков, вместо традиционных методов в пространстве весов, таких как Elastic Weight Consolidation (EWC).

Метод выводит функцию потерь, балансирующую стабильность и пластичность с использованием признаков SAE, показывая, что EWC является частным случаем этой рамки.
Он не требует данных предыдущих задач после построения маски, сохраняя только компактную маску признаков SAE, вычисленную из данных текущей задачи.
Подход более эффективен по памяти благодаря значительно меньшей размерности пространства признаков по сравнению с пространством параметров.
На бенчмарках TRACE и MedCL он достигает наилучших результатов среди подходов без архитектурных компонентов, специфичных для задач, превосходя EWC.

Авторы считают это важным, поскольку метод решает проблему полисемантичности больших языковых моделей, где защита на основе весов является неселективной, предлагая более эффективный способ изоляции и защиты конкретных знаний в процессе непрерывного обучения.