GRINQH: Иерархия квантования на основе градации входных данных для эффективной генерации LLM
Исследователи предлагают GRINQH, фреймворк постобучающего квантования только весов, который ускоряет декодирование больших языковых моделей за счёт объединения квантования и разреженности. Метод динамически назначает каналы весов разным уровням точности на основе величин активаций, решая проблему ограниченности памяти на этапе декодирования.