CAT-Q: Cuantización ternaria eficiente en costos y precisa para LLM
Los investigadores presentan CAT-Q, un esquema de cuantización post-entrenamiento que comprime grandes modelos de lenguaje a precisión ternaria sin requerir entrenamiento consciente de la cuantización costoso. El método utiliza modulación aprendible y ternarización suavizada para lograr alta precisión usando solo 512 muestras de calibración.