Выпущены две новые GGUF-квантования для Qwen-27B для ik_llama.cpp, оптимизированные для 16 ГБ VRAM на GPU NVIDIA. Первое, Qwen3.6-27B.i1-IQ4_KS-attn_qkv-IQ4_KS.gguf, улучшает логическое мышление за счёт снижения общего знания, при перплекситете 7.4131. Второе, Qwen3.6-27-27B.i1-IQ4_KS_KT-attn_qkv-IQ4_KS.gguf, применяет квантование Trellis (iq4_kt) селективно к тензорам с близкой гауссовой распределённостью, достигая перплекситете 7.4091, что показывает минимальное снижение производительности.
Новые Qwen-27B IQ4_KS и IQ4_KS_KT для ik_llama.cpp
Переведено с English → Русский