Erase-then-Delta Attention: Разделение адресов стирания и записи в линейном внимании с дельта-правилом
Авторы предлагают Erase-then-Delta Attention (EDA), правило обновления памяти для рекуррентных моделей, которое разделяет адрес, используемый для стирания устаревшей информации, и адрес, используемый для записи нового контента. Этот подход устраняет ограничение линейного внимания с дельта-правилом, которое не может активно удалять устаревшие данные, хранящиеся в разных местах, перед записью.