Clark Labs ha lanzado una versión comprimida del transformador de texto a imagen Sana 1.6B, cuantificado con pesos ternarios a aproximadamente 1.85 bits por peso. Esta compresión da como resultado un modelo que es 8.6 veces más pequeño que la versión estándar FP16 mientras mantiene una calidad cercana a la de FP16.

  • El tamaño del modelo empaquetado es de 374 MB en comparación con los 3.21 GB del transformador de referencia FP16.
  • Los pesos están cuantificados en ternario con escalas por grupo, manteniendo una pequeña cola de alta precisión de aproximadamente el 5% de los parámetros para las capas de condicionamiento y proyección.
  • Se proporciona una versión desempaquetada como pesos bf16 dequantizados para compatibilidad directa con la librería diffusers.

Este lanzamiento permite a los usuarios desplegar generación de texto a imagen de alta calidad con una huella de memoria significativamente reducida, facilitando la inferencia local.