Atención Erase-then-Delta: Desacoplar direcciones de borrado y escritura en la atención lineal basada en regla delta

Los autores proponen Atención Erase-then-Delta (EDA), una regla de actualización de memoria para modelos recurrentes que desacopla la dirección utilizada para borrar información obsoleta de la dirección utilizada para escribir nuevo contenido. Este enfoque aborda la limitación de la atención lineal basada en regla delta, que no puede eliminar activamente datos desactualizados almacenados en diferentes ubicaciones antes de escribir.

EDA aplica un paso de borrado dirigido a lo largo de una dirección aprendida seguido de una escritura correctiva estándar al estilo delta.
Experimentos de preentrenamiento en modelos densos de 2.5B y MoE de 25B-A2.8B muestran que EDA supera a los métodos existentes en ambos entornos.
Las ganancias persisten después del midtraining con contexto largo de 80B tokens, con un rendimiento superior en evaluaciones que van desde contextos de 4k hasta 128k.
El análisis indica que EDA asigna una ruta de limpieza adicional más fuertemente cuando el decaimiento pasivo es débil.

Los resultados sugieren que los modelos de memoria recurrentes deberían decidir independientemente qué información obsoleta borrar y dónde, en lugar de depender únicamente de escrituras correctivas en la dirección actual.