Qwen3.6-35B-A3B APEX en RTX 3090: Puntos de referencia de velocidad y calidad
Un punto de referencia compara las bifurcaciones de llama.cpp (ik_llama y spiritbuun) que ejecutan Qwen3.6-35B-A3B APEX con modelos I-Compact e I-Quality. ik_llama con I-Compact logra la mayor velocidad (~146 TPS), mientras que spiritbuun con I-Quality y caché turbo8/turbo4 iguala esta velocidad y ofrece un rendimiento ligeramente mejor en HellaSwag. Las cachés KV turbo8/turbo4 superan a q8_0/q5_0, especialmente en contextos más largos, con una ganancia de velocidad de hasta el 15% y menor KLD, lo que las hace superiores para calidad y longitud de contexto.