ggmlプロジェクトは、n_batch * M に対するパーティションを平坦化することでAMXのパフォーマンスを最適化し、すべてのスレッドが量子化に参加するようにしました。この変更により、CPUおよびGPUプラットフォーム上で様々なモデルやハードウェア構成において最大1.47倍の速度向上を実現し、推論時間の改善が一貫して確認されています。
ggmlがAMXの最適化にパーティション平坦化を採用
翻訳元 English → 日本語
ggmlプロジェクトは、n_batch * M に対するパーティションを平坦化することでAMXのパフォーマンスを最適化し、すべてのスレッドが量子化に参加するようにしました。この変更により、CPUおよびGPUプラットフォーム上で様々なモデルやハードウェア構成において最大1.47倍の速度向上を実現し、推論時間の改善が一貫して確認されています。