Un desarrollador ha publicado una implementación en C puro de un motor de inferencia diseñado específicamente para los modelos Qwen 3 de tamaño 4B y menores. El proyecto está disponible en GitHub como recurso educativo que prioriza la legibilidad del código y el valor pedagógico sobre el rendimiento bruto.

  • Escrito desde cero en C puro sin dependencias externas más allá de libc, libm, cJSON y OpenMP opcional.
  • Carga safetensors de HF directamente y realiza cuantización afín de 4 bits sobre la marcha sin conversión de pesos.
  • Implementa almacenamiento en caché KV e incluye una interfaz de chat integrada basada en terminal.
  • Alcanza aproximadamente 1 token por segundo en un portátil i5-1240P, priorizando la claridad sobre la velocidad.

El motor sirve como herramienta educativa para comprender la arquitectura transformer y los mecanismos de inferencia, ofreciendo una alternativa manejable a las implementaciones densas de alto rendimiento.