github llama.cpp · 11일 전 · inference

ggml이 파티션 평활화를 통해 AMX 최적화

번역 English → 한국어

ggml 프로젝트는 모든 스레드가 양자화에 참여하도록 n_batch * M에 대한 파티션을 평활화하여 AMX 성능을 최적화했습니다. 이 변경은 CPU 및 GPU 플랫폼에서 다양한 모델과 하드웨어 구성에 걸쳐 최대 1.47배의 속도 향상을 가져왔으며, 추론 시간에서 일관된 개선 결과를 보여줍니다.

중요도 2/3 신뢰도 2/3 llama.cpp API & product launches Inference efficiency Open weights

원문 보기