SpectralQuant Qwen3.5 0.8B Q4_K_M восстанавливает 96,5% разрыва с BF16

Компания Spectral Labs выпустила кандидата в релизы для калибровки-осознанного квантования Q4_K_M модели Qwen3.5 0.8B, используя новый метод под названием SpectralQuant. Этот подход направлен на то, чтобы стандартные форматы Q4_K_M вели себя ближе к более крупным форматам квантования, сохраняя при этом совместимость с llama.cpp.

SpectralQuant выявляет поведенчески чувствительные направления с помощью калибровочных сигналов и формирует ошибку для защиты критических весов, а не распределяет её равномерно.
Модель достигает восстановления на 96,5% разрыва производительности между стандартным Q4_K_M и BF16 на наборе оценок heldout120, снижая потерю (loss) с 3.4135 до 2.9961.
При 4.52 BPW (415,7 МиБ) SpectralQuant превосходит квантования Unsloth Q4_K_S, Q4_K_M, IQ4_NL и IQ4_XS на heldout120, несмотря на то, что те используют больше байт.
Результатом является строгий стандартный файл GGUF, запускаемый с помощью llama-cli или llama-server, не содержащий смешанных прецизионных побочных файлов или динамических форматов квантования.

Этот метод позволяет пользователям запускать сильно сжатые модели с производительностью, близкой к полной точности, без необходимости использования специализированных движков вывода или больших объемов памяти.