Spectral Labs ha publicado una candidata a lanzamiento para una cuantización Q4_K_M consciente de la calibración del modelo Qwen3.5 0.8B, utilizando un nuevo método llamado SpectralQuant. Este enfoque busca que las huellas estándar de Q4_K_M se comporten más como formatos de cuantización mayores mientras mantiene la compatibilidad con llama.cpp.

  • SpectralQuant identifica direcciones sensibles al comportamiento utilizando señales de calibración y moldea el error para proteger los pesos críticos en lugar de distribuirlo uniformemente.
  • El modelo logra una recuperación del 96,5 % de la brecha de rendimiento entre Q4_K_M estándar y BF16 en el conjunto de evaluación heldout120, reduciendo la pérdida de 3.4135 a 2.9961.
  • A 4.52 BPW (415.7 MiB), SpectralQuant supera a las cuantizaciones Q4_K_S, Q4_K_M, IQ4_NL e IQ4_XS de Unsloth en heldout120, a pesar de que estas utilizan más bytes.
  • La salida es un archivo GGUF estándar estricto ejecutable con llama-cli o llama-server, sin sidecars de precisión mixta ni formatos de cuantización dinámica.

Este método permite a los usuarios ejecutar modelos altamente comprimidos con rendimiento cercano a la precisión completa sin requerir motores de inferencia especializados ni huellas de memoria más grandes.