Релиз llama.cpp b9866 включает слияние topk-moe для моделей с 288 экспертами, таких как Step-3.7-Flash, которые ранее использовали несвязанный маршрут маршрутизации. Это изменение добавляет недостающую инстанциацию шаблона для принятия значения 288 в проверке на соответствие, так как оно является кратным размеру warp.
- Измерено на gfx1151 с Step-3.7-Flash IQ4_XS: пропускная способность декодирования (tg128) увеличилась на +2,4% при малом контексте.
- Обработка запросов (pp4096) осталась без изменений, поскольку слияние влияет только на маршрутизацию декодирования.
- Прирост производительности снижается с глубиной; к 30 тыс. токенов шаги становятся ограниченными вниманием (attention-bound) над KV-кэшем.
Эта оптимизация улучшает скорость вывода для специфических моделей Mixture-of-Experts на оборудовании CUDA в фазе декодирования.