Ternary Mamba logra una compresión de 3.61x de Mamba-2, pasando de 2,687 a 744 MB mediante entrenamiento con conciencia de cuantificación agrupada y destilación de conocimiento. Alcanza una precisión zero-shot del 48.1% en 7 tareas con 102M tokens, igualando a Bi-Mamba dentro de 0.9 puntos porcentuales, mientras evita el costoso entrenamiento desde cero.
Ternary Mamba: QAT eficiente de SSMs desde checkpoints preentrenados
Traducido del English → Español