Авторы предлагают Erase-then-Delta Attention (EDA), правило обновления памяти для рекуррентных моделей, которое разделяет адрес, используемый для стирания устаревшей информации, и адрес, используемый для записи нового контента. Этот подход устраняет ограничение линейного внимания с дельта-правилом, которое не может активно удалять устаревшие данные, хранящиеся в разных местах, перед записью.
- EDA применяет целевой шаг стирания вдоль обучаемого направления, за которым следует стандартная корректирующая запись в стиле дельты.
- Эксперименты по предварительному обучению на плотных моделях 2.5B и MoE 25B-A2.8B показывают, что EDA превосходит существующие методы в обоих случаях.
- Прирост сохраняется после долгого контекстного промежуточного обучения на 80B токенов, демонстрируя превосходную производительность в оценках с контекстами от 4k до 128k.
- Анализ показывает, что EDA выделяет дополнительный путь очистки наиболее сильно, когда пассивное затухание слабо.
Результаты указывают на то, что рекуррентные модели памяти должны независимо решать, какую устаревшую информацию стирать и где, а не полагаться исключительно на корректирующие записи в текущем адресе.