Авторы предлагают H-Res (Иерархическое остаточное управление), механизм, который адаптирует большие модели Transformer, модулируя их эффективный энергетический ландшафт без изменения глобального равновесия или увеличения длины последовательности. Этот подход формулирует адаптацию как задачу управления на многообразии активаций для направления траекторий токенов в специфичные для задачи области притяжения.

  • H-Res обучает векторное поле, зависящее от состояния, для управления динамикой поиска, избегая катастрофического вмешательства при изменении весов и деградации емкости из-за статических промптов.
  • Метод формально сохраняет энтропию внимания базовой модели и способствует Нейронному коллапсу.
  • Эмпирические результаты показывают, что H-Res превосходит глобальное изменение весов на 26% в задачах ассоциативного поиска, устраняя вычислительные накладные расходы методов на основе промптов.

Эта техника позволяет эффективно адаптироваться к новым задачам в структурированных доменах, предлагая масштабируемую альтернативу существующим стратегиям параметрически эффективной тонкой настройки.