ggml 프로젝트는 모든 스레드가 양자화에 참여하도록 n_batch * M에 대한 파티션을 평활화하여 AMX 성능을 최적화했습니다. 이 변경은 CPU 및 GPU 플랫폼에서 다양한 모델과 하드웨어 구성에 걸쳐 최대 1.47배의 속도 향상을 가져왔으며, 추론 시간에서 일관된 개선 결과를 보여줍니다.