Un usuario informa ejecutando el modelo Qwen 3.6 27B MTP en dos GPUs Radeon R9700 a través de llama.cpp con ROCm 7.2.1. Las pruebas muestran velocidades de decodificación estables (40–67 t/s) y rendimiento de prefill (hasta 1,500 t/s para prompts menores de 10k tokens), con tasas de aceptación de borrador MTP entre 0.33 y 0.61.