CAT-Q: Экономичное и точное тернарное квантование для больших языковых моделей

Исследователи представляют CAT-Q, схему постобучающего квантования, которая сжимает большие языковые модели до тернарной точности без необходимости дорогостоящего обучения с учетом квантования. Метод использует обучаемую модуляцию и смягченное тернарирование для достижения высокой точности всего на 512 калибровочных выборках.

CAT-Q применяет обучаемую модуляцию для настройки распределений весов и порогов, в сочетании с дифференцируемой функцией перехода для стабильной сходимости.
Для моделей от 1.7B до 8B параметров она превосходит семейства BitNet v1 и v2, одновременно сокращая требования к обучающим токенам примерно в 100 000 раз.
Подход успешно квантует более крупные модели с объемом от 14B до 235B параметров в ведущие тернарные модели за 8–60 часов на восьми GPU A100.

Этот метод обеспечивает эффективное сжатие и ускорение различных архитектур LLM за счет значительного снижения вычислительных ресурсов, необходимых для квантования.