Un usuario de Reddit informa haber optado por una versión de unsloth del modelo Qwen 3.5 122b-a10b (UD-IQ4_NL) para tareas de codificación con 64 GB de VRAM.

  • El modelo cuenta con una ventana de contexto bf16 de 100k y funciona a aproximadamente 30 tokens por segundo.
  • Solo se cargan unas pocas capas en la CPU/RAM para adaptarse a las limitaciones del hardware.
  • El usuario también utiliza modelos Qwen 3.6 según las necesidades específicas, pero considera que la variante 122b-a10b es su opción diaria.