Un usuario demuestra ejecutar el modelo Step-3.7-Flash de 198B parámetros de StepFun en una configuración de consumo con 4×RTX 3090, revelando compromisos críticos de rendimiento entre niveles de cuantización y predicción multi-token (MTP) con capacidades de visión.
- IQ3_XXS (72GB) se ejecuta completamente en VRAM a 65 tokens/s, superando al más grande IQ4_XS (99GB) que derrama a CPU a 33 tokens/s, logrando una aceleración de 2.4x.
- La decodificación especulativa MTP proporciona un aumento de velocidad de texto de +25% pero causa abortos duros al procesar imágenes porque el contexto borrador no puede decodificar tokens de imagen.
- Añadir la cabeza borradora MTP fuerza un derrame de VRAM a menos que la KV cache se degrade a q4_0, lo que libera ~4.5GB para mantener todos los componentes residentes.
- El modelo requiere parámetros específicos de muestreo (temp 1.0 / top_p 0.95) y un límite de presupuesto de razonamiento para prevenir bucles infinitos en llama.cpp.
Los hallazgos indican que para modelos MoE, asegurar la residencia completa en VRAM es más impactante que una mayor precisión de cuantización, y MTP es actualmente incompatible con tareas multimodales debido a limitaciones a nivel del motor.