media r/LocalLLaMA · hace 1 h · fuente: hace 9 d · open_models

La cuantización del caché KV NVFP4 en sm120 hará que los sistemas de 32GB VRAM sean muy capaces

Traducido del English → Español

Qwen3.6-27B funciona a ~60 tokens/seg en 32GB VRAM con cuantización KV FP8. La cuantización del caché KV NVFP4 en SM120 podría mejorar significativamente el rendimiento en estos sistemas, aunque la implementación actual aún no está disponible.

Importancia 2/3 r/LocalLLaMA NVIDIA Inference efficiency

Leer original