Исследователи предлагают GRINQH, фреймворк постобучающего квантования только весов, который ускоряет декодирование больших языковых моделей за счёт объединения квантования и разреженности. Метод динамически назначает каналы весов разным уровням точности на основе величин активаций, решая проблему ограниченности памяти на этапе декодирования.
- Использует величины активаций как прокси для вычислительной важности, чтобы обеспечить гибкую среднюю разрядность во время декодирования.
- Реализует иерархическую вложенную структуру памяти для хранения многоуровневой точности внутри пользовательского GPU-ядра.
- Превосходит современные базовые методы фиксированной и смешанной точности при сопоставимых настройках 3- и 4-бит на моделях Llama3 и Qwen3.
- Обеспечивает эффективную генерацию при 2-битном квантовании, устанавливая новую Парето-границу для компромисса между качеством генерации и скоростью инференса.