Un LLM local ejecutado en 8-16 GPUs MI50 alcanza hasta 19 tokens por segundo (TPS) de rendimiento pico para el modelo Minimax M3. El rendimiento está limitado por las salidas de razonamiento largo y la calidad del código, con decodificación especulativa mostrando una tasa de aceptación del 50% y alta latencia, lo que indica desafíos de usabilidad para tareas de codificación agéntica.