Управляемое исследование оценивает модели OpenPangu 1B и 7B на NPUs Huawei Ascend 910B1 с использованием методов квантования только весов и весов-активации. Результаты показывают, что квантование только весов на 8 бит является без потерь для обеих моделей, в то время как квантование на 4 бита является практическим для модели 7B, но вредным для модели 1B при выполнении задач по логике, математике и программированию. Методы экстремально низкой точности, такие как 2 бита и бинарные, не срабатывают, и W4A4 SmoothQuant приводит к неопределённому перплексити, что указывает на сложность экстремального сжатия на низких битах.
Эмпирическое исследование квантования OpenPangu на NPUs Ascend
Переведено с English → Русский