arxiv
arXiv cs.CL
·
hace 8 h
CARVE: Recurrencia Consciente del Contenido con Eficiencia de Valor para Atención Lineal Chunk-Paralela
La arquitectura CARVE aborda tres defectos críticos en el modelo recurrente GDN-2 basado en la regla delta, al restringir las operaciones de borrado al eje de clave, permitiendo así la resolución triangular válida de chunks en forma WY y mejorando la eficiencia del valor. Al reutilizar el tensor de salida recurrente como señal de contenido y reemplazar las proyecciones de puerta de escritura por valor individual con escalares únicos, CARVE mantiene una inicialización bit a bit idéntica a GDN-2 mientras resuelve los problemas de enmascaramiento ciego de memoria.