Выбор слоёв с полным вниманием, направляемый NLL, для адаптации скользящего окна без дообучения
Исследователи предлагают метод без дообучения для выбора слоёв в гибридных моделях внимания, которые должны сохранять полное внимание, решая проблему неэффективности фиксированных паттернов при выводе на длинных контекстах. Измеряя деградацию отрицательного логарифмического правдоподобия на токенах ответа, подход определяет слои, критичные для поддержания точности при переключении на скользящее окно.