Step-3.7-Flash (198B-A11B vision MoE) en 4×3090 — IQ3_XXS completamente residente supera a IQ4 derramado por 2.4×, y MTP speculative decode rompe silenciosamente la visión
Un usuario demuestra ejecutar el modelo Step-3.7-Flash de 198B parámetros de StepFun en una configuración de consumo con 4×RTX 3090, revelando compromisos críticos de rendimiento entre niveles de cuantización y predicción multi-token (MTP) con capacidades de visión.