Исследователи представляют Log_bQuant, новый подход к логарифмическому квантованию с настраиваемыми основаниями, предназначенный для адаптации к распространенным распределениям параметров в языковых моделях.
Метод решает проблему неоптимальных представлений, вызванных весами с низкой частотой и высокой величиной, найденными в предыдущих кодовых книгах равномерного квантования. Он демонстрирует превосходную производительность при точности 4 бит на нескольких бенчмарках по сравнению с асимметричным линейным квантованием на уровне тензора, обеспечивая умеренное ускорение и высокую экономию памяти.
Этот подход делает языковые модели подходящими для частного использования на потребительских GPU за счет снижения требований к памяти и улучшения скорости вывода.