FlashMorph — это новый метод преобразования моделей Transformer в гибридные архитектуры, которые балансируют точность полного внимания и эффективность линейного внимания путём оптимизации выбора слоёв как задачи подмножества с ограничением по бюджету. Подход строит морфную модель с параллельными ветвями внимания и совместно оптимизирует послойные вентили на синтетических данных для определения оптимальной конфигурации.

  • FlashMorph формулирует выбор гибридных слоёв как задачу оптимизации подмножества с ограничением по бюджету, а не полагается на эвристические стратегии.
  • Каждый слой полного внимания оснащается преобразованной ветвью линейного внимания, веса модели фиксируются, а послойные вентили оптимизируются.
  • Регуляризация линеаризации стимулирует использование линейного внимания для повышения эффективности в процессе оптимизации вентилей.
  • Наученные вентили дискретизируются при заданном бюджете полного внимания для создания финальной гибридной архитектуры.
  • Метод использует стандартную дистилляцию логитов и дообучение на длинных контекстах после инстанцирования.

FlashMorph обнаруживает более эффективные гибридные конфигурации, сохраняющие сильное запоминание длинных контекстов и производительность в общих бенчмарках, при этом существенно снижая затраты на выбор слоёв по сравнению с существующими методами.