Локальная модель LLM на 8-16 GPU MI50 достигает пика пропускной способности в 19 токенов в секунду (TPS) для модели Minimax M3. Производительность ограничена длинными логическими выводами и качеством кода, при спекулятивной декодировке показывается коэффициент принятия 50% и высокая задержка, что указывает на проблемы с использованием в задачах агентного программирования.
8-16 MI50s Minimax M3 @19 tps TG (peak)
Переведено с English → Русский