研究者らは、言語モデルの一般的なパラメータ分布に適応するために調整可能な基底を特徴とする新たな対数量子化手法であるLog_bQuantを発表しました。
この手法は、従来の一様量子化コードブックで見られる低頻度で高magnitudeの重みによって引き起こされる最適でない表現に対処します。テンソルごとの粒度における非対称線形量子化と比較して、4ビット精度で複数のベンチマークにおいて優れたパフォーマンスを示し、中程度の速度向上と高いメモリ節約を達成しています。
このアプローチは、メモリ要件を削減し推論速度を改善することで、言語モデルを消費者向けGPUでのプライベートな使用に適したものにします。