Los investigadores presentan Log_bQuant, un enfoque novedoso de cuantización logarítmica que cuenta con bases ajustables diseñadas para adaptarse a las distribuciones comunes de parámetros en modelos de lenguaje.
El método aborda las representaciones subóptimas causadas por pesos de baja frecuencia y alta magnitud encontrados en los diccionarios de cuantización uniforme anteriores. Demuestra un rendimiento superior a 4 bits de precisión en varios benchmarks en comparación con la cuantización lineal asimétrica a nivel de tensor, mientras logra una aceleración moderada y un alto ahorro de memoria.
Este enfoque hace que los modelos de lenguaje sean adecuados para uso privado en GPUs de gama de consumidor al reducir los requisitos de memoria y mejorar la velocidad de inferencia.