HyperDFlash es un marco de descodificación especulativa en paralelo por bloques diseñado para abordar problemas de desalineación de características al adaptar DFlash a la arquitectura de hiper-conexión múltiple (MHC) de DeepSeek-V4. Los autores proponen dos optimizaciones clave: utilizar estados residuales previos al colapso para el condicionamiento y reemplazar el compresor lineal genérico por un reductor residual con puertas ligero heredado de la cabeza de hiper-conexión del modelo.
- Utiliza estados residuales previos al colapso como la señal exclusiva de condicionamiento para preservar la información estructural multi-camino y alinearse con la vía de predicción nativa del modelo objetivo.
- Reemplaza los compresores lineales genéricos pesados por un reductor residual con puertas ligero que tiene tres órdenes de magnitud menos de parámetros mientras mantiene la alineación arquitectónica.
- Emplea una pérdida de distilación KL dirigida en la cabeza LM para regularizar las predicciones frente a la distribución de probabilidad completa del objetivo y mejorar la calidad del borrador durante las etapas iniciales del entrenamiento.
- Demuestra un rendimiento superior consistente frente a las líneas base nativas de MTP y las adaptaciones vanilla de DFlash en benchmarks de razonamiento matemático, síntesis de código y conversacional.
El marco logra ganancias sustanciales en la longitud promedio del borrador aceptado y en la aceleración de la descodificación, validando la efectividad de sus estrategias de alineación con MHC y reducción con puertas para la descodificación especulativa de alto rendimiento.