ConSA introduce un marco que aprende la asignación óptima de atención completa frente a ventana deslizante mediante regularización L0 y restricciones de Lagrangiano aumentado. Supera a los métodos basados en reglas, con SWA ubicado en las capas inferiores y FA concentrado en bloques de capas intermedias, un patrón consistente a través de escalas de modelo y niveles de esparsidad.