GRINQH: Иерархия квантования на основе градации входных данных для эффективной генерации LLM

Исследователи предлагают GRINQH, фреймворк постобучающего квантования только весов, который ускоряет декодирование больших языковых моделей за счёт объединения квантования и разреженности. Метод использует величины активаций для динамического назначения каналов весов различным уровням точности, что решает проблему ограниченности памяти на этапе декодирования.

Использует величины активаций в качестве прокси для вычислительной важности, чтобы обеспечить гибкую среднюю разрядность во время декодирования.
Реализует иерархическую вложенную структуру памяти для хранения многоуровневой точности внутри пользовательского GPU-ядра.
Превосходит передовые базовые методы фиксированной и смешанной точности при сопоставимых настройках 3- и 4-бит на моделях Llama3 и Qwen3.
Обеспечивает эффективную генерацию при 2-битном представлении, устанавливая новую Парето-границу для компромисса между качеством генерации и скоростью вывода.