Пользователь демонстрирует запуск модели Step-3.7-Flash от StepFun на 198B параметров на потребительской конфигурации из 4×RTX 3090, выявляя критические компромиссы производительности между уровнями квантования и многозадачным предсказанием (MTP) с возможностями работы с изображениями.

  • IQ3_XXS (72GB) работает полностью в VRAM со скоростью 65 токенов/с, превосходя более крупный IQ4_XS (99GB), который переполняется в CPU со скоростью 33 токена/с, что дает ускорение в 2.4 раза.
  • MTP speculative decoding обеспечивает прирост скорости текста на +25%, но вызывает жесткие сбои при обработке изображений, поскольку контекст черновика не может декодировать токены изображений.
  • Добавление заголовка черновика MTP вынуждает переполняться в VRAM, если только KV cache не понижен до q4_0, что освобождает ~4.5GB для сохранения всех компонентов в резидентном режиме.
  • Модель требует специфических параметров сэмплирования (temp 1.0 / top_p 0.95) и ограничения бюджета рассуждений для предотвращения бесконечных циклов в llama.cpp.

Выводы показывают, что для моделей MoE обеспечение полного резидентного режима в VRAM более значимо, чем более высокая точность квантования, а MTP в настоящее время несовместима с мультимодальными задачами из-за ограничений на уровне движка.