github llama.cpp · منذ 11 يوم · inference

ggml يحسّن أداء AMX عبر تسطيح التقسيم

مُترجم من English → العربية

قام مشروع ggml بتحسين أداء AMX عن طريق تسطيح التقسيم على n_batch * M، مما يضمن مشاركة جميع الخيوط في عملية التكميم. هذا التغيير يحسّن السرعة بنسبة تصل إلى 1.47x عبر نماذج وتكوينات عتادية مختلفة على منصات CPU وGPU، مع إظهار النتائج مكاسب متسقة في وقت الاستدلال.

الأهمية 2/3 الموثوقية 2/3 llama.cpp API & product launches Inference efficiency Open weights

قراءة الأصل