ConSA представляет рамку, которая обучает оптимальное распределение внимания между полным и оконным вниманием с использованием регуляризации L0 и дополнительных лагранжевых ограничений. Он превосходит методы на основе правил, при этом оконное внимание (SWA) размещается в нижних слоях, а полное внимание (FA) концентрируется в блоках средних слоев, что наблюдается во всех масштабах моделей и уровнях спарсности.