Step-3.7-Flash (198B-A11B vision MoE) на 4×3090 — полностью резидентный IQ3_XXS превосходит переполняющий IQ4 в 2.4 раза, а MTP speculative decode молча ломает работу с изображениями
Пользователь демонстрирует запуск модели Step-3.7-Flash от StepFun на 198B параметров на потребительской конфигурации из 4×RTX 3090, выявляя критические компромиссы производительности между уровнями квантования и многозадачным предсказанием (MTP) с возможностями работы с изображениями.