Mac Studio M3 Ultra + RTX PRO 6000 पर llama.cpp RPC के माध्यम से Kimi K2.7 Code Q3 का बेंचमार्किंग

एक उपयोगकर्ता Mac Studio M3 Ultra और NVIDIA RTX PRO 6000 के बीच विभाजित 432GB Kimi K2.7 Code मॉडल को llama.cpp RPC का उपयोग करके चलाने का बेंचमार्किंग करता है, यह पाते हुए कि प्रीफिल स्पीड में सुधार होता है जबकि डिकोड प्रदर्शन मुख्य रूप से अपरिवर्तित रहता है।

मॉडल के 20% को GPU पर ऑफलोड करते समय प्रीफिल गति लगभग 14.8% बढ़ गई।
डिकोड गति में केवल 4.2% का मामूली लाभ दिखा, जिसके परिणामस्वरूप कुल अनुरोध समय में लगभग 12.3% की सुधार हुई।
RTX कार्ड पर 128K संदर्भ के साथ सेटअप ने उच्च विभाजनों में विफल होने से पहले 20% का व्यावहारिक अधिकतम विभाजन हासिल किया।
सीधे इथरनेट कनेक्शन पर RPC ट्रैफ़िक लगभग 112-113 MiB/s मापा गया, जिसमें नेटवर्क लागत प्रीफिल के दौरान डिकोड की तुलना में अधिक स्पष्ट थी।

लेखक निष्कर्ष निकालते हैं कि हालांकि यह कॉन्फ़िगरेशन बड़े मॉडलों को डिवाइसों के बीच फिट करने में मदद करता है, प्रदर्शन लाभ नेटवर्क इंटरकनेक्ट द्वारा सीमित हैं, जिससे यह मुख्य रूप से महत्वपूर्ण गति सुधारों के बजाय क्षमता के लिए उपयोगी बन जाता है।