Impacto de la cuantización en las tasas de aceptación de borradores MTP
Un análisis del descodificación especulativa utilizando modelos Gemma 4-31B-it demuestra que una cuantización intensa reduce la tasa de aceptación de tokens porque el modelo principal se vuelve menos consistente con el creador de borradores. Las pruebas en cuantizaciones Q5_K_S, IQ4_XS, IQ3_M e IQ2_M revelan cómo la profundidad del borrador afecta el rendimiento.