Se han lanzado dos nuevas cuantizaciones GGUF para Qwen-27B para ik_llama.cpp, optimizadas para 16GB de VRAM en GPUs NVIDIA. La primera, Qwen3.6-27B.i1-IQ4_KS-attn_qkv-IQ4_KS.gguf, mejora el razonamiento lógico a costa del conocimiento general, con una perplejidad de 7.4131. La segunda, Qwen3.6-27B.i1-IQ4_KS_KT-attn_qkv-IQ4_KS.gguf, aplica la cuantización Trellis (iq4_kt) selectivamente a tensores con distribuciones cercanas a la gaussiana, logrando una perplejidad de 7.4091, lo que muestra una degradación mínima del rendimiento.
Nuevas cuantizaciones IQ4_KS e IQ4_KS_KT para Qwen-27B en ik_llama.cpp
Traducido del English → Español