Todos los artículos
media r/LocalLLaMA · hace 1 h En vivo

La cuantización de caché KV con QAT para Gemma 4 31B muestra una mejora masiva

La cuantización de caché KV con QAT para Gemma 4 31B reduce significativamente la divergencia KL en comparación con las cuantizaciones estándar. QAT q8_0 logra una divergencia en el peor caso de 1.5, superando a q4_0 estándar por un factor de aproximadamente 38, y QAT q4_0 supera a q8_0 estándar en rendimiento, con una deriva de salida mucho menor y sin valores atípicos catastróficos.

media r/LocalLLaMA · hace 1 h En vivo

El agente Hermes se ve feo y tiene una mala experiencia de usuario

Un usuario expresa decepción con la interfaz web de Hermes Agent, citando fuentes y gráficos feos, así como una experiencia de usuario lenta tanto en las interfaces web como de terminal. A pesar de su promesa de funciones integradas y facilidad de uso, el usuario lo encuentra significativamente más lento y menos intuitivo que Pi Mono Agent, especialmente cuando se usa con los modelos Qwen3.6-35B y Gemma4-26B.