Un usuario informa que Gemma 4 26B cuantizado a Q3 funciona a 25 tokens por segundo en un MacBook Air, con un rendimiento casi tan bueno como bf16 para tareas de no-código y llamada de herramientas. Cuestiona si este rendimiento refleja sesgo de confirmación o si los modelos pequeños cuantizados son genuinamente utilizables.
Gemma 4 26BA4B sorprendentemente utilizable en IQ3_S
Traducido del English → Español