HyperDFlash: Блочное спекулятивное декодирование, выровненное по MHC, с затворным остаточным снижением
HyperDFlash — это фреймворк для блочно-параллельного спекулятивного декодирования, разработанный для решения проблем несоответствия признаков при адаптации DFlash к архитектуре multi-hyper-connection (MHC) модели DeepSeek-V4. Авторы предлагают две ключевые оптимизации: использование предсхлопнутых остаточных состояний для условной генерации и замена универсального линейного компрессора на легковесный затворный остаточный редуктор, унаследованный от гипер-соединительной головки модели.