Любительское сравнение на потребительском оборудовании показывает, что сильно квантованная GLM-5.2 (Q1_S) превосходит модель более высокого бита Qwen 3.6 27B (Q8) в сложной задаче программирования, несмотря на значительно более низкую скорость вывода.

  • Тест заключался в создании самодостаточной 3D-игры на Three.js с использованием двух RTX 3090 через pi harness.
  • Qwen 27B сгенерировала код за ~2 минуты, но потребовала нескольких дополнительных промптов, чтобы игра стала играбельной.
  • GLM 5.2 Q1_S потратила часы и 75k токенов, но с первого раза создала корректный, отполированный продукт со звуком.
  • LLM-судьи (Opus 4.8 и GPT 5.5) оценили GLM Q1_S выше всего по качеству кода и следованию инструкциям.
  • Полноразрядная GLM выполнила задачу всего за 11k токенов, но содержала ошибки инверсии управляющих клавиш, отсутствующие в квантованной версии.

Результаты указывают на то, что низкоразрядное квантование может оставаться высокоэффективным для конкретных сценариев использования, таких как задачи сложного рассуждения, при условии эффективного использования расширенного процесса мышления модели.