Clark Labs ha lanzado una versión comprimida del transformador de texto a imagen Sana 1.6B, cuantificado con pesos ternarios a aproximadamente 1.85 bits por peso. Esta compresión da como resultado un modelo que es 8.6 veces más pequeño que la versión estándar FP16 mientras mantiene una calidad cercana a la de FP16.
- El tamaño del modelo empaquetado es de 374 MB en comparación con los 3.21 GB del transformador de referencia FP16.
- Los pesos están cuantificados en ternario con escalas por grupo, manteniendo una pequeña cola de alta precisión de aproximadamente el 5% de los parámetros para las capas de condicionamiento y proyección.
- Se proporciona una versión desempaquetada como pesos bf16 dequantizados para compatibilidad directa con la librería diffusers.
Este lanzamiento permite a los usuarios desplegar generación de texto a imagen de alta calidad con una huella de memoria significativamente reducida, facilitando la inferencia local.