Erase-then-Delta Attention: Разделение адресов стирания и записи в линейном внимании с дельта-правилом

Авторы предлагают Erase-then-Delta Attention (EDA), правило обновления памяти для рекуррентных моделей, которое разделяет адрес, используемый для стирания устаревшей информации, и адрес, используемый для записи нового контента. Этот подход устраняет ограничение линейного внимания с дельта-правилом, которое не может активно удалять устаревшие данные, хранящиеся в разных местах, перед записью.

EDA применяет целевой шаг стирания вдоль обучаемого направления, за которым следует стандартная корректирующая запись в стиле дельты.
Эксперименты по предварительному обучению на плотных моделях 2.5B и MoE 25B-A2.8B показывают, что EDA превосходит существующие методы в обоих случаях.
Прирост сохраняется после долгого контекстного промежуточного обучения на 80B токенов, демонстрируя превосходную производительность в оценках с контекстами от 4k до 128k.
Анализ показывает, что EDA выделяет дополнительный путь очистки наиболее сильно, когда пассивное затухание слабо.

Результаты указывают на то, что рекуррентные модели памяти должны независимо решать, какую устаревшую информацию стирать и где, а не полагаться исключительно на корректирующие записи в текущем адресе.