Dirección de Variedad Paralela: Adaptación Eficiente de Grandes Memorias Asociativas Mediante Moldeado de Energía Residual
Los autores proponen H-Res (Dirección Residual Jerárquica), un mecanismo que adapta grandes modelos Transformer modulando su paisaje de energía efectivo sin alterar el equilibrio global ni expandir la longitud de la secuencia. Este enfoque formula la adaptación como un problema de control en la variedad de activaciones para dirigir las trayectorias de tokens hacia cuencas de atracción específicas de la tarea.