Un usuario de Reddit pregunta si comprar dos tarjetas gráficas AMD Radeon RX 9060 XT con 16GB de VRAM cada una es una inversión rentable para ejecutar el modelo Qwen 3.6 27B y arquitecturas similares.
El autor actualmente ejecuta el modelo en un portátil i7 con 64GB de RAM, logrando aproximadamente 3-4 tokens por segundo (tk/s) durante la generación y 50 tk/s durante el prefill usando MTP.
Describe la velocidad actual de prefill como inutilizable para su caso de uso como agente de codificación en una base de código grande, señalando que cada llamada a herramienta de lectura requiere esperar 1-2 minutos para completar el prefill. El usuario busca expectativas de rendimiento para las velocidades de generación y prefill en la configuración dual RX 9060 XT propuesta para determinar si resuelve sus problemas de latencia.