Локальная модель LLM на 8-16 GPU MI50 достигает пика пропускной способности в 19 токенов в секунду (TPS) для модели Minimax M3. Производительность ограничена длинными логическими выводами и качеством кода, при спекулятивной декодировке показывается коэффициент принятия 50% и высокая задержка, что указывает на проблемы с использованием в задачах агентного программирования.