Un análisis del descodificación especulativa utilizando modelos Gemma 4-31B-it demuestra que una cuantización intensa reduce la tasa de aceptación de tokens porque el modelo principal se vuelve menos consistente con el creador de borradores. Las pruebas en cuantizaciones Q5_K_S, IQ4_XS, IQ3_M e IQ2_M revelan cómo la profundidad del borrador afecta el rendimiento.

  • Las tasas de aceptación disminuyen a medida que aumenta la profundidad del borrador para todos los niveles de cuantización probados.
  • Q5_K_S proporciona la mayor fidelidad, mientras que IQ4_XS e IQ3_M tienen un rendimiento casi idéntico.
  • Incluso la cuantización IQ2_M de 2 bits mantiene altas tasas de aceptación para borradores de un solo token (84.5% en n=1).
  • La arquitectura del hardware influye significativamente en las ganancias de velocidad, con los dispositivos CUDA beneficiándose más de una profundidad de borrador n=2.

El estudio indica que las tasas de bits más bajas aún pueden soportar eficazmente la descodificación especulativa, permitiendo a los usuarios ejecutar el modelo troncal de 31B con tan solo 12 GB de memoria utilizando cuantización IQ2_M.