Para peneliti memperkenalkan Log_bQuant, sebuah pendekatan kuantisasi logaritmik baru yang memiliki basis yang dapat disesuaikan untuk beradaptasi dengan distribusi parameter umum dalam model bahasa.

Metode ini mengatasi representasi suboptimal yang disebabkan oleh bobot bernilai tinggi dan frekuensi rendah yang ditemukan dalam codebook kuantisasi seragam sebelumnya. Metode ini menunjukkan kinerja superior pada presisi 4-bit di beberapa benchmark dibandingkan dengan kuantisasi linier asimetris pada granularitas per tensor, sambil mencapai percepatan moderat dan penghematan memori yang tinggi.

Pendekatan ini membuat model bahasa cocok untuk penggunaan pribadi pada GPU kelas konsumen dengan mengurangi kebutuhan memori dan meningkatkan kecepatan inferensi.