HyperDFlash: Descodificación especulativa por bloques alineada con MHC y reducción residual con puertas

HyperDFlash es un marco de descodificación especulativa en paralelo por bloques diseñado para abordar problemas de desalineación de características al adaptar DFlash a la arquitectura de hiper-conexión múltiple (MHC) de DeepSeek-V4. Los autores proponen dos optimizaciones clave: utilizar estados residuales previos al colapso para el condicionamiento y reemplazar el compresor lineal genérico por un reductor residual con puertas ligero heredado de la cabeza de hiper-conexión del modelo.

Utiliza estados residuales previos al colapso como la señal exclusiva de condicionamiento para preservar la información estructural multi-camino y alinearse con la vía de predicción nativa del modelo objetivo.
Reemplaza los compresores lineales genéricos pesados por un reductor residual con puertas ligero que tiene tres órdenes de magnitud menos de parámetros mientras mantiene la alineación arquitectónica.
Emplea una pérdida de distilación KL dirigida en la cabeza LM para regularizar las predicciones frente a la distribución de probabilidad completa del objetivo y mejorar la calidad del borrador durante las etapas iniciales del entrenamiento.
Demuestra un rendimiento superior consistente frente a las líneas base nativas de MTP y las adaptaciones vanilla de DFlash en benchmarks de razonamiento matemático, síntesis de código y conversacional.

El marco logra ganancias sustanciales en la longitud promedio del borrador aceptado y en la aceleración de la descodificación, validando la efectividad de sus estrategias de alineación con MHC y reducción con puertas para la descodificación especulativa de alto rendimiento.