Um usuário demonstra executar o modelo Qwen3.6-27 na quantização Q8_0 com até 115.000 tokens de contexto em um sistema com 32GB de VRAM. Ao experimentar diferentes níveis de quantização do cache chave-valor (KV) junto com os pesos do modelo, eles alcançaram inferência estável usando llama-server e decodificação especulativa draft-mtp.
- A Opção 1 usou cache KV Q8_0 para suportar 95K de contexto, atingindo uma velocidade agregada de tokens de 141.6 tok/s em tarefas de geração de código.
- A Opção 2 reduziu o cache KV para Q5_1 para estender o contexto para 105K tokens, mantendo desempenho similar com uma taxa de 142.0 tok/s.
- A Opção 3 baixou ainda mais o cache KV para Q4_0 para alcançar 115K de contexto, resultando em uma taxa de aceitação agregada de 0.6969 e 138.7 tok/s para geração de código.
A configuração permite que os usuários empurrem os limites do contexto significativamente além das restrições típicas em hardware de consumo ao equilibrar a precisão dos pesos do modelo com a quantização do cache KV.