GRINQH: Иерархия квантования на основе градации входных данных для эффективной генерации LLM

Исследователи предлагают GRINQH, фреймворк постобучающего квантования только весов, который ускоряет декодирование больших языковых моделей за счёт объединения квантования и разреженности. Метод динамически назначает каналы весов разным уровням точности на основе величин активаций, решая проблему ограниченности памяти на этапе декодирования.

Использует величины активаций как прокси для вычислительной важности, чтобы обеспечить гибкую среднюю разрядность во время декодирования.
Реализует иерархическую вложенную структуру памяти для хранения многоуровневой точности внутри пользовательского GPU-ядра.
Превосходит современные базовые методы фиксированной и смешанной точности при сопоставимых настройках 3- и 4-бит на моделях Llama3 и Qwen3.
Обеспечивает эффективную генерацию при 2-битном квантовании, устанавливая новую Парето-границу для компромисса между качеством генерации и скоростью инференса.