Los investigadores presentan CAT-Q, un esquema de cuantización post-entrenamiento que comprime grandes modelos de lenguaje a precisión ternaria sin requerir entrenamiento consciente de la cuantización costoso. El método utiliza modulación aprendible y ternarización suavizada para lograr alta precisión usando solo 512 muestras de calibración.
- CAT-Q emplea modulación aprendible para ajustar las distribuciones de pesos y los umbrales, junto con una función de transición diferenciable para una convergencia estable.
- Para modelos entre 1.7B y 8B parámetros, supera a las familias BitNet v1 y v2 mientras reduce los requisitos de tokens de entrenamiento en aproximadamente 100,000 veces.
- El enfoque cuantiza con éxito modelos más grandes que van de 14B a 235B parámetros en modelos ternarios líderes dentro de 8 a 60 horas en ocho GPUs A100.
Este método permite una compresión y aceleración eficientes de diversas arquitecturas LLM al reducir significativamente los recursos computacionales necesarios para la cuantización.