Un usuario reporta haber logrado un aumento del 30-40% en la velocidad de generación de tokens al emparejar el modelo Ornith-1.0-35B como modelo borrador con Qwen3.6-35B-A3B-DFlash usando llama-server.

  • La configuración utiliza Ornith-1.0-35B-GGUF (Q8_0) como modelo borrador especulativo mediante la bandera `--spec-type draft-dflash`.
  • Las pruebas en un contexto de 50k de código JavaScript mezclado con texto de Wikipedia arrojaron una tasa de aceptación de tokens del 80%.
  • La configuración implica ejecutar llama-server con parámetros específicos para la longitud del contexto, temperatura y pasos de borrador.

Aunque esta combinación mejora la velocidad de generación, viene a costa de tiempos de procesamiento de prompts significativamente más lentos, lo que significa que no es una solución universal.