Пользователь Reddit сообщает о выборе версии модели Qwen 3.5 122b-a10b (UD-IQ4_NL) от unsloth для задач кодирования с использованием 64 ГБ VRAM.

  • Модель имеет контекстное окно bf16 на 100k и работает со скоростью примерно 30 токенов в секунду.
  • Для учета ограничений оборудования загружается только несколько слоев в CPU/RAM.
  • Пользователь также использует модели Qwen 3.6 в зависимости от конкретных потребностей, но считает вариант 122b-a10b своим основным рабочим инструментом.