Un estudio controlado evalúa los modelos OpenPangu 1B y 7B en NPUs Huawei Ascend 910B1 utilizando métodos de cuantización solo de pesos y de pesos-activación. Los resultados muestran que la cuantización solo de pesos de 8 bits es sin pérdidas para ambos modelos, mientras que la cuantización de 4 bits es práctica para el modelo 7B pero perjudicial para el 1B en tareas de razonamiento, matemáticas y código. Los métodos de ultra baja precisión como 2 bits y binarios fallan, y W4A4 SmoothQuant produce una perplejidad no finita, lo que indica que la compresión extrema de pocos bits sigue siendo un desafío.
Estudio empírico de la cuantización OpenPangu en NPUs Ascend
Traducido del English → Español