Um usuário do Reddit relata estar executando o modelo Qwen3.6 27B em quantização Q4 usando descarga para RAM em uma RTX 3060 com 12 GB de VRAM, observando uma largura de banda de DRAM de apenas cerca de 30 GB/s durante a inferência.
- O usuário alcançou uma taxa de transferência de 3.12 tokens por segundo com um contexto de 18K tokens, questionando se o gargalo está na implementação do LM Studio ou no hardware da CPU.
- Testes com um prompt menor e 4 threads de CPU usando cache KV Q8 e 37 camadas de descarga para GPU aumentaram a taxa de transferência para 4.95 tokens por segundo, mantendo uma largura de banda de 30-35 GB/s.