Un utilisateur de Reddit rapporte avoir opté pour une version unsloth du modèle Qwen 3.5 122b-a10b (UD-IQ4_NL) pour des tâches de codage avec 64 Go de VRAM.

  • Le modèle dispose d'une fenêtre de contexte bf16 de 100k et fonctionne à environ 30 tokens par seconde.
  • Seules quelques couches sont chargées dans le CPU/LaRAM pour s'adapter aux contraintes matérielles.
  • L'utilisateur utilise également les modèles Qwen 3.6 selon ses besoins spécifiques, mais considère la variante 122b-a10b comme son modèle quotidien principal.