Un usuario de Reddit demuestra la ejecución del modelo Qwen3.6-27B cuantizado a Q3 con KV en Q8 en una GPU AMD Mi50 de 32 GB, logrando aproximadamente 180+ tokens por segundo para el procesamiento de prompts y 9 tokens por segundo para la generación de texto.
- La configuración de hardware incluye un T5610 con 64 GB de RAM DDR3 y un SSD SATA de 256 GB.
- El usuario utiliza el modelo para crear pruebas de concepto para una aplicación de contabilidad SaaS personalizada adaptada a la industria de la construcción.
- Se comparte un repositorio de GitHub llamado exaMath, que permite a los usuarios ejecutar la configuración mediante Docker después de configurar las variables de entorno.
El autor comparte esta configuración como un recurso de código abierto para ayudar a otros contratistas y desarrolladores que carecen de acceso a software empresarial costoso o hardware de gama alta.