media r/LocalLLaMA · há 1 h · fonte: há 5 d · open_models

Usuário do Reddit seleciona Qwen 3.5 122b-a10b para codificação com 64 GB de VRAM

Traduzido do English → Português (BR)

Um usuário do Reddit relata ter optado por uma versão unsloth do modelo Qwen 3.5 122b-a10b (UD-IQ4_NL) para tarefas de codificação com 64 GB de VRAM.

O modelo possui uma janela de contexto bf16 de 100k e opera a aproximadamente 30 tokens por segundo.
Apenas algumas camadas são carregadas na CPU/RAM para acomodar as limitações do hardware.
O usuário também utiliza modelos Qwen 3.6 dependendo das necessidades específicas, mas considera a variante 122b-a10b seu principal uso diário.

Importância 1/3 r/LocalLLaMA Code generation Inference efficiency