연구자들은 언어 모델의 일반적인 매개변수 분포에 적응하도록 설계된 조정 가능한 밑을 특징으로 하는 새로운 로그 양자화 접근법인 Log_bQuant를 소개했습니다.
이 방법은 이전 균일 양자화 코드북에서 발견된 저주파수 고크기 가중치로 인한 비최적 표현 문제를 해결합니다. 텐서 단위 세분성에서의 비대칭 선형 양자화와 비교하여 여러 벤치마크에서 4비트 정밀도로 우수한 성능을 보여주며, 중간 정도의 속도 향상과 높은 메모리 절감을 달성했습니다.
이 접근법은 메모리 요구 사항을 줄이고 추론 속도를 개선함으로써 언어 모델을 소비자용 GPU에서 개인적으로 사용할 수 있도록 만듭니다.