Um usuário do Reddit relata ter optado por uma versão unsloth do modelo Qwen 3.5 122b-a10b (UD-IQ4_NL) para tarefas de codificação com 64 GB de VRAM.

  • O modelo possui uma janela de contexto bf16 de 100k e opera a aproximadamente 30 tokens por segundo.
  • Apenas algumas camadas são carregadas na CPU/RAM para acomodar as limitações do hardware.
  • O usuário também utiliza modelos Qwen 3.6 dependendo das necessidades específicas, mas considera a variante 122b-a10b seu principal uso diário.