HyperQuant: конвейер квантования, оптимизированный по критерию «скорость-искажение», для больших языковых и диффузионных моделей
HyperQuant — это унифицированный конвейер постобучающего квантования, предназначенный для весов и KV-кэша больших языковых и диффузионных трансформеров, сочетающий преобразования Хадамара с оптимальным решетчатым квантованием. Метод превосходит недавние схемы, такие как HIGGS, TurboQuant и OCTOPUS, при различных скоростях битрейта, сохраняя качество, близкое к безпотерьному.