Un usuario reporta haber logrado un aumento del 30-40% en la velocidad de generación de tokens al emparejar el modelo Ornith-1.0-35B como modelo borrador con Qwen3.6-35B-A3B-DFlash usando llama-server.
- La configuración utiliza Ornith-1.0-35B-GGUF (Q8_0) como modelo borrador especulativo mediante la bandera `--spec-type draft-dflash`.
- Las pruebas en un contexto de 50k de código JavaScript mezclado con texto de Wikipedia arrojaron una tasa de aceptación de tokens del 80%.
- La configuración implica ejecutar llama-server con parámetros específicos para la longitud del contexto, temperatura y pasos de borrador.
Aunque esta combinación mejora la velocidad de generación, viene a costa de tiempos de procesamiento de prompts significativamente más lentos, lo que significa que no es una solución universal.