Todos los artículos
media r/LocalLLaMA · hace 11 h

Qwen3.6-35B-A3B APEX en RTX 3090: Puntos de referencia de velocidad y calidad

Un punto de referencia compara las bifurcaciones de llama.cpp (ik_llama y spiritbuun) que ejecutan Qwen3.6-35B-A3B APEX con modelos I-Compact e I-Quality. ik_llama con I-Compact logra la mayor velocidad (~146 TPS), mientras que spiritbuun con I-Quality y caché turbo8/turbo4 iguala esta velocidad y ofrece un rendimiento ligeramente mejor en HellaSwag. Las cachés KV turbo8/turbo4 superan a q8_0/q5_0, especialmente en contextos más largos, con una ganancia de velocidad de hasta el 15% y menor KLD, lo que las hace superiores para calidad y longitud de contexto.

media r/LocalLLaMA · hace 11 h

La cuantización de caché KV con QAT para Gemma 4 31B muestra una mejora masiva

La cuantización de caché KV con QAT para Gemma 4 31B reduce significativamente la divergencia KL en comparación con las cuantizaciones estándar. QAT q8_0 logra una divergencia en el peor caso de 1.5, superando a q4_0 estándar por un factor de aproximadamente 38, y QAT q4_0 supera a q8_0 estándar en rendimiento, con una deriva de salida mucho menor y sin valores atípicos catastróficos.

media r/LocalLLaMA · hace 12 h

El agente Hermes se ve feo y tiene una mala experiencia de usuario

Un usuario expresa decepción con la interfaz web de Hermes Agent, citando fuentes y gráficos feos, así como una experiencia de usuario lenta tanto en las interfaces web como de terminal. A pesar de su promesa de funciones integradas y facilidad de uso, el usuario lo encuentra significativamente más lento y menos intuitivo que Pi Mono Agent, especialmente cuando se usa con los modelos Qwen3.6-35B y Gemma4-26B.