HyperQuant: конвейер квантования, оптимизированный по критерию «скорость-искажение», для больших языковых и диффузионных моделей

HyperQuant — это унифицированный конвейер постобучающего квантования, предназначенный для весов и KV-кэша больших языковых и диффузионных трансформеров, сочетающий преобразования Хадамара с оптимальным решетчатым квантованием. Метод превосходит недавние схемы, такие как HIGGS, TurboQuant и OCTOPUS, при различных скоростях битрейта, сохраняя качество, близкое к безпотерьному.

HyperQuant объединяет поплиточные случайные преобразования Хадамара (RHT), оптимальное решетчатое квантование низкой размерности (E8, D4, A2 или Z), безпотерьное отбрасывание битов и кодирование Рица для аппроксимации гауссовских распределений весов и активаций.
Он демонстрирует превосходные результаты по сравнению с HIGGS при 3–5 битах на скаляр для весов и превосходит TurboQuant и OCTOPUS в квантовании KV-кэша вплоть до 1,7 бит/символ (bps).
Конвейер интегрируется с путями MMA тензорных ядер 8-битного и 4-битного форматов; установлено, что int8 превосходит fp8 на выходе решетчатого квантования после RHT.
Сквозное тестирование на H100 при 4 битах на символ сжимает линейные веса примерно в 3,9 раза и KV-кэш в 3,79 раза без наблюдаемых артефактов в видео-моделях, таких как LTX-2.

Этот подход обеспечивает эффективное сжатие больших моделей без значительной потери качества, сохраняя семантику внимания благодаря методам коррекции смещения для KV-кэша.