Log_bQuant introduz quantização logarítmica com bases ajustáveis

Pesquisadores apresentam o Log_bQuant, uma abordagem novel de quantização logarítmica com bases ajustáveis projetadas para se adaptar às distribuições comuns de parâmetros em modelos de linguagem.

O método aborda as representações subótimas causadas por pesos de baixa frequência e alta magnitude encontrados nos codebooks de quantização uniforme anteriores. Ele demonstra desempenho superior em precisão de 4 bits em vários benchmarks em comparação com a quantização linear assimétrica em granularidade por tensor, enquanto alcança aceleração moderada e alto economia de memória.

Esta abordagem torna os modelos de linguagem adequados para uso privado em GPUs de nível de consumidor ao reduzir os requisitos de memória e melhorar a velocidade de inferência.