Qwen3.6-27B funciona a ~60 tokens/seg en 32GB VRAM con cuantización KV FP8. La cuantización del caché KV NVFP4 en SM120 podría mejorar significativamente el rendimiento en estos sistemas, aunque la implementación actual aún no está disponible.
La cuantización del caché KV NVFP4 en sm120 hará que los sistemas de 32GB VRAM sean muy capaces
Traducido del English → Español