github llama.cpp · 11日前 · inference

ggmlがAMXの最適化にパーティション平坦化を採用

翻訳元 English → 日本語

ggmlプロジェクトは、n_batch * M に対するパーティションを平坦化することでAMXのパフォーマンスを最適化し、すべてのスレッドが量子化に参加するようにしました。この変更により、CPUおよびGPUプラットフォーム上で様々なモデルやハードウェア構成において最大1.47倍の速度向上を実現し、推論時間の改善が一貫して確認されています。

重要度 2/3 信頼度 2/3 llama.cpp API & product launches Inference efficiency Open weights

原文を読む