Тернарный Мамба: Предобученная QAT для эффективного сжатия SSM
Тернарный Мамба достигает сжатия Мамба-2 в 3,61 раза с помощью групповой квантовой тренировки в предобученном состоянии, снижая память с 2687 до 744 МБ. При использовании только 102 млн токенов и 4 часов на 4 GPU достигается точность 48,1% без подсчета, что соответствует Би-Мамбе с погрешностью 0,9 процентных пунктов, при этом выявляется новая нестабильность, связанная с обучаемыми масштабами квантования и накоплением ошибок в рекурсии.