CAT-Q: Cuantización ternaria eficiente en costos y precisa para LLM

Los investigadores presentan CAT-Q, un esquema de cuantización post-entrenamiento que comprime grandes modelos de lenguaje a precisión ternaria sin requerir entrenamiento consciente de la cuantización costoso. El método utiliza modulación aprendible y ternarización suavizada para lograr alta precisión usando solo 512 muestras de calibración.

CAT-Q emplea modulación aprendible para ajustar las distribuciones de pesos y los umbrales, junto con una función de transición diferenciable para una convergencia estable.
Para modelos entre 1.7B y 8B parámetros, supera a las familias BitNet v1 y v2 mientras reduce los requisitos de tokens de entrenamiento en aproximadamente 100,000 veces.
El enfoque cuantiza con éxito modelos más grandes que van de 14B a 235B parámetros en modelos ternarios líderes dentro de 8 a 60 horas en ocho GPUs A100.

Este método permite una compresión y aceleración eficientes de diversas arquitecturas LLM al reducir significativamente los recursos computacionales necesarios para la cuantización.