Un usuario comparte métricas detalladas de rendimiento al ejecutar el modelo Qwen3.6 27B en un sistema con RTX 5090, AMD 9800X3D y 64GB de RAM usando llama.cpp.

  • El ajuste incluyó q8 KV cache, contexto de 192k, MTP draft=10, spec-draft-p-min=0.5 y batch/ubatch 512.
  • El análisis de 6.454 muestras durante una sesión mixta de programación agéntica mostró un rendimiento medio de 140.7 tok/s y una mediana de 134.9 tok/s.
  • El rendimiento pico alcanzó el rango de 120-130 tok/s con una cola larga que se extiende hasta 233 tok/s.
  • El autor señala que el manejo del caché de atención híbrida/SWA en llama.cpp aún no es perfecto para este modelo, lo que provoca advertencias de reprocesamiento del prompt.

La publicación destaca que los números promedio pueden ocultar variaciones de rendimiento, proporcionando una distribución real de velocidades en lugar de solo una cifra destacada.