Un usuario investiga el cuello de botella de descarga a RAM con Qwen3.6 27B en RTX 3060

Un usuario de Reddit informa que ejecuta el modelo Qwen3.6 27B en cuantización Q4 utilizando descarga a RAM en una RTX 3060 con 12 GB de VRAM, señalando un ancho de banda de DRAM de solo alrededor de 30 GB/s durante la inferencia.

El usuario logró un rendimiento de 3.12 tokens por segundo con un contexto de 18K tokens, cuestionando si el cuello de botella está en la implementación de LM Studio o en su hardware de CPU.
Las pruebas con una entrada más pequeña y 4 hilos de CPU usando caché KV Q8 y 37 capas de descarga a GPU aumentaron el rendimiento a 4.95 tokens por segundo mientras mantenían un ancho de banda de 30-35 GB/s.