HyperQuant: Una canalización de cuantización óptima en tasa-distorsión para modelos grandes de lenguaje y difusión

HyperQuant es una canalización unificada de cuantización post-entrenamiento diseñada para los pesos y la caché KV de transformadores grandes de lenguaje y difusión, combinando transformadas de Hadamard con cuantización óptima de retículos. El método supera a esquemas recientes como HIGGS, TurboQuant y OCTOPUS en varias tasas de bits mientras mantiene una calidad casi sin pérdidas.

HyperQuant combina Transformadas de Hadamard Aleatorias por mosaico, cuantización óptima de retículo de baja dimensión (E8, D4, A2 o Z), despojo de bits sin pérdidas y codificación Rice para aproximar distribuciones gaussianas para pesos y activaciones.
Logra un rendimiento superior en comparación con HIGGS a 3 a 5 bits por escalar en pesos y supera a TurboQuant y OCTOPUS en cuantización KV hasta 1.7 bps.
La canalización se integra con rutas MMA de Tensor-Core de 8 bits y 4 bits, descubriendo que int8 supera a fp8 en la salida del retículo post-RHT.
Las pruebas end-to-end en una H100 a 4 bps comprimen los pesos lineales aproximadamente 3.9x y la caché KV 3.79x sin artefactos observables en modelos de video como LTX-2.

Este enfoque permite la compresión eficiente de modelos grandes sin pérdida significativa de calidad, preservando la semántica de atención mediante métodos de corrección de sesgo para la caché KV.