Выбор слоёв с полным вниманием, направляемый NLL, для адаптации скользящего окна без дообучения

Исследователи предлагают метод без дообучения для выбора слоёв в гибридных моделях внимания, которые должны сохранять полное внимание, решая проблему неэффективности фиксированных паттернов при выводе на длинных контекстах. Измеряя деградацию отрицательного логарифмического правдоподобия на токенах ответа, подход определяет слои, критичные для поддержания точности при переключении на скользящее окно.

Метод выбирает слёи, вычисляя падение отрицательного логарифмического правдоподобия, когда слой использует скользящее окно вместо полного внимания.
На LongMemEval с Qwen3-4B достигает точности 64.6% при использовании только 1/4 слоёв с полным вниманием, сопоставимо с точностью 65.0% периодического базового уровня с 1/2 FA, вдвое снижая вычислительные затраты.
Превосходит периодические базовые уровни SWAA (1/4 FA) на 10.4 процентных пункта и базовые уровни LightTransfer на 26.4 процентных пункта.
Анализ с устранением смешивания подтверждает, что сигнал выбора согласуется с потребностями в дальнем внимании, а не с общей чувствительностью слоёв.
Процесс калибровки требует примерно 15 минут однократных вычислений.

Этот подход продвигает границу Парето эффективности и точности для развёртывания длинноконтекстных LLM, обеспечивая значительную экономику вычислений без необходимости дообучения модели.