Atención Erase-then-Delta: Desacoplar direcciones de borrado y escritura en la atención lineal basada en regla delta
Los autores proponen Atención Erase-then-Delta (EDA), una regla de actualización de memoria para modelos recurrentes que desacopla la dirección utilizada para borrar información obsoleta de la dirección utilizada para escribir nuevo contenido. Este enfoque aborda la limitación de la atención lineal basada en regla delta, que no puede eliminar activamente datos desactualizados almacenados en diferentes ubicaciones antes de escribir.