CAT-Q: Экономичное и точное тернарное квантование для больших языковых моделей
Исследователи представляют CAT-Q, схему постобучающего квантования, которая сжимает большие языковые модели до тернарной точности без необходимости дорогостоящего обучения с учетом квантования. Метод использует обучаемую модуляцию и смягченное тернарирование для достижения высокой точности всего на 512 калибровочных выборках.