Les chercheurs présentent Log_bQuant, une nouvelle approche de quantification logarithmique dotée de bases ajustables conçues pour s'adapter aux distributions de paramètres courantes dans les modèles de langage.
La méthode traite les représentations sous-optimales causées par les poids de faible fréquence et de grande magnitude trouvés dans les codebooks de quantification uniforme précédents. Elle démontre des performances supérieures à une précision de 4 bits sur plusieurs benchmarks par rapport à la quantification linéaire asymétrique au niveau du tenseur, tout en atteignant un gain de vitesse modéré et d'importantes économies de mémoire.
Cette approche rend les modèles de langage adaptés à un usage privé sur des GPU grand public en réduisant les exigences de mémoire et en améliorant la vitesse d'inférence.