Pesquisadores apresentam o Log_bQuant, uma abordagem novel de quantização logarítmica com bases ajustáveis projetadas para se adaptar às distribuições comuns de parâmetros em modelos de linguagem.
O método aborda as representações subótimas causadas por pesos de baixa frequência e alta magnitude encontrados nos codebooks de quantização uniforme anteriores. Ele demonstra desempenho superior em precisão de 4 bits em vários benchmarks em comparação com a quantização linear assimétrica em granularidade por tensor, enquanto alcança aceleração moderada e alto economia de memória.
Esta abordagem torna os modelos de linguagem adequados para uso privado em GPUs de nível de consumidor ao reduzir os requisitos de memória e melhorar a velocidade de inferência.