Локальная модель LLM на базе 8-16 GPU MI50 обеспечивает пиковую пропускную способность до 19 токенов в секунду (TPS) для модели Minimax M3. Производительность ограничена длинными выводами рассуждений и качеством кода; спекулятивное декодирование показывает уровень принятия 50% и высокую задержку, что указывает на проблемы с удобством использования для задач агентного программирования.