Consulta de la comunidad sobre el uso de cuantización Q1/Q2 para modelos de lenguaje grandes

Un usuario de Reddit pregunta a la comunidad sobre sus experiencias utilizando niveles de cuantización Q1 o Q2 para modelos de lenguaje grandes que van de 100 a 250 mil millones de parámetros. La publicación enumera modelos específicos en este rango de tamaño, como DeepSeek-V4-Flash y Qwen3-235B-A22B, y los contrasta con modelos más pequeños donde la cuantización baja generalmente se desaconseja.

El autor busca comentarios sobre la usabilidad de estas cuantizaciones de pocos bits para tareas de codificación agéntica, escritura y chat.
Se pide a los usuarios que informen problemas específicos como bucles, repeticiones o fallos en la llamada de herramientas al usar Q1/Q2 en modelos grandes.
El autor señala que, aunque Q3 se usa a veces para modelos medianos como MiniMax-M2 debido a restricciones de VRAM, sospecha que los modelos grandes pueden manejar mejor la cuantización más baja.

La discusión tiene como objetivo determinar si la cuantización Q1/Q2 proporciona una calidad suficiente para casos de uso prácticos con modelos muy grandes, posibilitando su implementación en hardware con recursos limitados.