Un usuario de Reddit informa que ejecuta el modelo Qwen3.6 27B en cuantización Q4 utilizando descarga a RAM en una RTX 3060 con 12 GB de VRAM, señalando un ancho de banda de DRAM de solo alrededor de 30 GB/s durante la inferencia.

  • El usuario logró un rendimiento de 3.12 tokens por segundo con un contexto de 18K tokens, cuestionando si el cuello de botella está en la implementación de LM Studio o en su hardware de CPU.
  • Las pruebas con una entrada más pequeña y 4 hilos de CPU usando caché KV Q8 y 37 capas de descarga a GPU aumentaron el rendimiento a 4.95 tokens por segundo mientras mantenían un ancho de banda de 30-35 GB/s.