Исследователи предлагают GRINQH, фреймворк постобучающего квантования только весов, который ускоряет декодирование больших языковых моделей за счёт объединения квантования и разреженности. Метод использует величины активаций для динамического назначения каналов весов различным уровням точности, что решает проблему ограниченности памяти на этапе декодирования.
- Использует величины активаций в качестве прокси для вычислительной важности, чтобы обеспечить гибкую среднюю разрядность во время декодирования.
- Реализует иерархическую вложенную структуру памяти для хранения многоуровневой точности внутри пользовательского GPU-ядра.
- Превосходит передовые базовые методы фиксированной и смешанной точности при сопоставимых настройках 3- и 4-бит на моделях Llama3 и Qwen3.
- Обеспечивает эффективную генерацию при 2-битном представлении, устанавливая новую Парето-границу для компромисса между качеством генерации и скоростью вывода.