Исследователи предлагают GRINQH, фреймворк постобучающего квантования только весов, который ускоряет декодирование больших языковых моделей за счёт объединения квантования и разреженности. Метод динамически назначает каналы весов разным уровням точности на основе величин активаций, решая проблему ограниченности памяти на этапе декодирования.

  • Использует величины активаций как прокси для вычислительной важности, чтобы обеспечить гибкую среднюю разрядность во время декодирования.
  • Реализует иерархическую вложенную структуру памяти для хранения многоуровневой точности внутри пользовательского GPU-ядра.
  • Превосходит современные базовые методы фиксированной и смешанной точности при сопоставимых настройках 3- и 4-бит на моделях Llama3 и Qwen3.
  • Обеспечивает эффективную генерацию при 2-битном квантовании, устанавливая новую Парето-границу для компромисса между качеством генерации и скоростью инференса.