ggml प्रोजेक्ट ने n_batch * M पर partition को flatten करके AMX प्रदर्शन को अनुकूलित किया, यह सुनिश्चित करते हुए कि सभी threads quantization में भाग लें। इस बदलाव से CPU और GPU प्लेटफॉर्म पर विभिन्न मॉडलों और हार्डवेयर कॉन्फ़िगरेशन के across गति 1.47x तक बढ़ी है, जिसमें inference time में स्थिर लाभ दिखाई दे रहे हैं।
ggml ने partition flattening के साथ AMX को अनुकूलित किया
अनुवादित English → हिन्दी