Dirección de Variedad Paralela: Adaptación Eficiente de Grandes Memorias Asociativas Mediante Moldeado de Energía Residual

Los autores proponen H-Res (Dirección Residual Jerárquica), un mecanismo que adapta grandes modelos Transformer modulando su paisaje de energía efectivo sin alterar el equilibrio global ni expandir la longitud de la secuencia. Este enfoque formula la adaptación como un problema de control en la variedad de activaciones para dirigir las trayectorias de tokens hacia cuencas de atracción específicas de la tarea.

H-Res aprende un campo vectorial dependiente del estado para guiar la dinámica de recuperación, evitando la interferencia catastrófica por modificación de pesos y la degradación de capacidad por prompts estáticos.
El método preserva formalmente la entropía de atención del modelo base y facilita el Colapso Neural.
Los resultados empíricos muestran que H-Res supera a la modificación global de pesos en un 26% en tareas de recuperación asociativa mientras elimina la sobrecarga computacional de los métodos basados en prompts.

Esta técnica permite una adaptación eficiente a nuevas tareas en dominios estructurados, ofreciendo una alternativa escalable a las estrategias existentes de ajuste fino eficiente en parámetros.