Pipeline local de NL a SQL usando Qwen3 4B y planificación determinista

Un desarrollador ha implementado un sistema completamente local de generación de filtros a partir de lenguaje natural en hardware sin GPU. La solución utiliza el modelo Qwen3 4B Instruct ejecutándose mediante llama.cpp con inferencia solo en CPU. En lugar de generar SQL directamente, el modelo se centra en la intención semántica y la selección estructurada de filtros. Un planificador de consultas determinista gestiona posteriormente los procesos de generación y optimización de SQL. El pipeline emplea un método de recuperación híbrido BM25 y embeddings usando FAISS para el almacenamiento vectorial. Recupera los cuatro ejemplos coincidentes principales de aproximadamente 800 instancias semánticas incrustadas para inyectarlas en el prompt. Este enfoque permite que el sistema funcione eficazmente dentro de las estrictas limitaciones de RAM reducida y sin acceso a internet.