Любительское сравнение на потребительском оборудовании показывает, что сильно квантованная GLM-5.2 (Q1_S) превосходит модель более высокого бита Qwen 3.6 27B (Q8) в сложной задаче программирования, несмотря на значительно более низкую скорость вывода.
- Тест заключался в создании самодостаточной 3D-игры на Three.js с использованием двух RTX 3090 через pi harness.
- Qwen 27B сгенерировала код за ~2 минуты, но потребовала нескольких дополнительных промптов, чтобы игра стала играбельной.
- GLM 5.2 Q1_S потратила часы и 75k токенов, но с первого раза создала корректный, отполированный продукт со звуком.
- LLM-судьи (Opus 4.8 и GPT 5.5) оценили GLM Q1_S выше всего по качеству кода и следованию инструкциям.
- Полноразрядная GLM выполнила задачу всего за 11k токенов, но содержала ошибки инверсии управляющих клавиш, отсутствующие в квантованной версии.
Результаты указывают на то, что низкоразрядное квантование может оставаться высокоэффективным для конкретных сценариев использования, таких как задачи сложного рассуждения, при условии эффективного использования расширенного процесса мышления модели.