HyperDFlash: Блочное спекулятивное декодирование, выровненное по MHC, с затворным остаточным снижением

HyperDFlash — это фреймворк для блочно-параллельного спекулятивного декодирования, разработанный для решения проблем несоответствия признаков при адаптации DFlash к архитектуре multi-hyper-connection (MHC) модели DeepSeek-V4. Авторы предлагают две ключевые оптимизации: использование предсхлопнутых остаточных состояний для условной генерации и замена универсального линейного компрессора на легковесный затворный остаточный редуктор, унаследованный от гипер-соединительной головки модели.

Использует предсхлопнутые остаточные состояния в качестве единственного сигнала условной генерации для сохранения многопутевой структурной информации и выравнивания с нативным путем предсказания целевой модели.
Заменяет тяжеловесные универсальные линейные компрессоры на легковесный затворный остаточный редуктор, имеющий на три порядка меньше параметров при сохранении архитектурного соответствия.
Применяет таргетированную потерю KL-дистилляции на LM-head для регуляризации предсказаний относительно полного распределения вероятностей целевой модели и улучшения качества черновика на ранних этапах обучения.
Демонстрирует стабильное превосходство над нативными базовыми линиями MTP и адаптациями vanilla DFlash в задачах математического рассуждения, синтеза кода и диалоговых бенчмарках.

Фреймворк демонстрирует существенный прирост средней длины принятого черновика и ускорения декодирования, подтверждая эффективность стратегий выравнивания по MHC и затворного снижения для высокопроизводительного спекулятивного декодирования.