Пользователь Reddit демонстрирует запуск модели Qwen3.6-27B, квантованной до Q3 с KV при Q8, на GPU AMD Mi50 32 ГБ, достигая скорости около 180+ токенов в секунду для обработки запроса и 9 токенов в секунду для генерации текста.

  • Аппаратная конфигурация включает T5610 с 64 ГБ DDR3 RAM и SSD SATA на 256 ГБ.
  • Пользователь применяет модель для создания прототипов (POC) для собственного SaaS-приложения бухгалтерского учета, адаптированного под строительную отрасль.
  • Опубликован репозиторий GitHub с названием exaMath, позволяющий пользователям запускать конфигурацию через Docker после настройки переменных окружения.

Автор делится этой конфигурацией как открытым ресурсом, чтобы помочь другим подрядчикам и разработчикам, не имеющим доступа к дорогому корпоративному программному обеспечению или высокопроизводительному оборудованию.