Un motor de inferencia mínimo solo para CPU para Qwen 3, escrito desde cero en C puro

Un desarrollador ha publicado una implementación en C puro de un motor de inferencia diseñado específicamente para los modelos Qwen 3 de tamaño 4B y menores. El proyecto está disponible en GitHub como recurso educativo que prioriza la legibilidad del código y el valor pedagógico sobre el rendimiento bruto.

Escrito desde cero en C puro sin dependencias externas más allá de libc, libm, cJSON y OpenMP opcional.
Carga safetensors de HF directamente y realiza cuantización afín de 4 bits sobre la marcha sin conversión de pesos.
Implementa almacenamiento en caché KV e incluye una interfaz de chat integrada basada en terminal.
Alcanza aproximadamente 1 token por segundo en un portátil i5-1240P, priorizando la claridad sobre la velocidad.

El motor sirve como herramienta educativa para comprender la arquitectura transformer y los mecanismos de inferencia, ofreciendo una alternativa manejable a las implementaciones densas de alto rendimiento.