El autor cuantificó el modelo deepreinforce-ai/Ornith-1.0-35B al formato Q3_K_M, reduciendo su tamaño a aproximadamente 17 GB de VRAM mientras mantenía la validez conductual mediante comprobaciones de divergencia KL.
- La cuantización Q3_K_M reduce los bits por peso de 16.01 a 3.87, resultando en un archivo de 16.8 GB que es aproximadamente un 21% más pequeño que la variante Q4_K_M.
- La validación frente a la línea base BF16 muestra una KLD media de 0.366 y una tasa de coincidencia de tokens top-1 del 84.4%, en comparación con el 100% para Q6_K y el 96.9% para Q8_0.
- El rendimiento en una sola GPU alcanza ~240 tokens por segundo en modo de flujo único y escala a ~493 tokens por segundo en 16 ranuras concurrentes.
- El autor corrigió un error en el servicio de modo de razonamiento donde las solicitudes de código cortas devolvían contenido final vacío, estableciendo por defecto los scripts de servicio en REASONING=off.
- Se utilizó una sonda KL de siguiente token top-64 corregida para la validación, y los modelos upstream Q4/Q5/Q6/Q8 se espejaron y revalidaron dentro del mismo repositorio.
Esta cuantización permite que el modelo de 35B parámetros se ejecute cómodamente en una sola GPU con requisitos de memoria significativamente menores que las variantes de mayor precisión, mientras proporciona métricas de rendimiento verificadas para los usuarios.