HyperQuant es una canalización unificada de cuantización post-entrenamiento diseñada para los pesos y la caché KV de transformadores grandes de lenguaje y difusión, combinando transformadas de Hadamard con cuantización óptima de retículos. El método supera a esquemas recientes como HIGGS, TurboQuant y OCTOPUS en varias tasas de bits mientras mantiene una calidad casi sin pérdidas.
- HyperQuant combina Transformadas de Hadamard Aleatorias por mosaico, cuantización óptima de retículo de baja dimensión (E8, D4, A2 o Z), despojo de bits sin pérdidas y codificación Rice para aproximar distribuciones gaussianas para pesos y activaciones.
- Logra un rendimiento superior en comparación con HIGGS a 3 a 5 bits por escalar en pesos y supera a TurboQuant y OCTOPUS en cuantización KV hasta 1.7 bps.
- La canalización se integra con rutas MMA de Tensor-Core de 8 bits y 4 bits, descubriendo que int8 supera a fp8 en la salida del retículo post-RHT.
- Las pruebas end-to-end en una H100 a 4 bps comprimen los pesos lineales aproximadamente 3.9x y la caché KV 3.79x sin artefactos observables en modelos de video como LTX-2.
Este enfoque permite la compresión eficiente de modelos grandes sin pérdida significativa de calidad, preservando la semántica de atención mediante métodos de corrección de sesgo para la caché KV.