Вопрос сообщества о применении квантования Q1/Q2 для больших языковых моделей

Пользователь Reddit спрашивает сообщество об их опыте использования уровней квантования Q1 или Q2 для больших языковых моделей с количеством параметров от 100 до 250 миллиардов. В посте перечислены конкретные модели этого размера, такие как DeepSeek-V4-Flash и Qwen3-235B-A22B, и проводится их сравнение с более маленькими моделями, где низкое квантование обычно не рекомендуется.

Автор просит отзывы о применимости этих низкобитных квантований для задач агентного кодинга, написания текстов и общения.
Пользователям предлагается сообщить о конкретных проблемах, таких как зацикливание, повторение или сбои при вызове инструментов, возникающие при использовании Q1/Q2 на больших моделях.
Автор отмечает, что хотя Q3 иногда используется для средних моделей, таких как MiniMax-M2 из-за ограничений VRAM, он подозревает, что большие модели могут лучше справляться с более низким квантованием.

Обсуждение направлено на определение того, обеспечивает ли квантование Q1/Q2 достаточное качество для практического использования с очень большими моделями, что потенциально может позволить их развертывание на оборудовании с ограниченными ресурсами.