Ternary Mamba: QAT preentrenada para compresión eficiente de SSM

Ternary Mamba logra una compresión de 3.61x de Mamba-2 mediante entrenamiento cuantizado con conciencia de cuantización agrupado desde un checkpoint preentrenado, reduciendo la memoria de 2,687 a 744 MB. Alcanza una precisión zero-shot del 48.1% con solo 102M tokens y 4 GPU-hours, igualando a Bi-Mamba dentro de 0.9 puntos porcentuales, mientras revela nueva inestabilidad de las escalas de cuantización aprendibles y acumulación de errores en la recurrencia.