Un usuario de Reddit pregunta a la comunidad sobre sus experiencias utilizando niveles de cuantización Q1 o Q2 para modelos de lenguaje grandes que van de 100 a 250 mil millones de parámetros. La publicación enumera modelos específicos en este rango de tamaño, como DeepSeek-V4-Flash y Qwen3-235B-A22B, y los contrasta con modelos más pequeños donde la cuantización baja generalmente se desaconseja.

  • El autor busca comentarios sobre la usabilidad de estas cuantizaciones de pocos bits para tareas de codificación agéntica, escritura y chat.
  • Se pide a los usuarios que informen problemas específicos como bucles, repeticiones o fallos en la llamada de herramientas al usar Q1/Q2 en modelos grandes.
  • El autor señala que, aunque Q3 se usa a veces para modelos medianos como MiniMax-M2 debido a restricciones de VRAM, sospecha que los modelos grandes pueden manejar mejor la cuantización más baja.

La discusión tiene como objetivo determinar si la cuantización Q1/Q2 proporciona una calidad suficiente para casos de uso prácticos con modelos muy grandes, posibilitando su implementación en hardware con recursos limitados.