Regularización de Activación Guiada por SAE para Aprendizaje Continuo en LLM
Este artículo propone un nuevo enfoque para el olvido catastrófico en modelos de lenguaje grandes mediante la regularización en el espacio de activaciones utilizando Autoencoders Esparsos (SAEs) preentrenados como diccionario de características monosemánticas, en lugar de depender de métodos tradicionales en el espacio de pesos como la Consolidación Elástica de Pesos (EWC).