Regularización de Activación Guiada por SAE para Aprendizaje Continuo en LLM

Este artículo propone un nuevo enfoque para el olvido catastrófico en modelos de lenguaje grandes mediante la regularización en el espacio de activaciones utilizando Autoencoders Esparsos (SAEs) preentrenados como diccionario de características monosemánticas, en lugar de depender de métodos tradicionales en el espacio de pesos como la Consolidación Elástica de Pesos (EWC).

El método deriva una función de pérdida que equilibra estabilidad y plasticidad utilizando características SAE, demostrando que EWC es un caso especial de este marco.
No requiere datos de tareas anteriores después de la construcción de la máscara, conservando únicamente una compacta máscara de características SAE calculada a partir de los datos de la tarea actual.
El enfoque es más eficiente en memoria debido a la dimensionalidad significativamente menor del espacio de características en comparación con el espacio de parámetros.
En las benchmarks TRACE y MedCL, logra los mejores resultados entre enfoques sin componentes arquitectónicos específicos por tarea, superando a EWC.

Los autores consideran esto importante porque aborda la naturaleza polisemántica de los LLMs donde la protección basada en pesos es no selectiva, ofreciendo una manera más efectiva de aislar y proteger conocimientos específicos durante el aprendizaje continuo.