एक उपयोगकर्ता Mac Studio M3 Ultra और NVIDIA RTX PRO 6000 के बीच विभाजित 432GB Kimi K2.7 Code मॉडल को llama.cpp RPC का उपयोग करके चलाने का बेंचमार्किंग करता है, यह पाते हुए कि प्रीफिल स्पीड में सुधार होता है जबकि डिकोड प्रदर्शन मुख्य रूप से अपरिवर्तित रहता है।
- मॉडल के 20% को GPU पर ऑफलोड करते समय प्रीफिल गति लगभग 14.8% बढ़ गई।
- डिकोड गति में केवल 4.2% का मामूली लाभ दिखा, जिसके परिणामस्वरूप कुल अनुरोध समय में लगभग 12.3% की सुधार हुई।
- RTX कार्ड पर 128K संदर्भ के साथ सेटअप ने उच्च विभाजनों में विफल होने से पहले 20% का व्यावहारिक अधिकतम विभाजन हासिल किया।
- सीधे इथरनेट कनेक्शन पर RPC ट्रैफ़िक लगभग 112-113 MiB/s मापा गया, जिसमें नेटवर्क लागत प्रीफिल के दौरान डिकोड की तुलना में अधिक स्पष्ट थी।
लेखक निष्कर्ष निकालते हैं कि हालांकि यह कॉन्फ़िगरेशन बड़े मॉडलों को डिवाइसों के बीच फिट करने में मदद करता है, प्रदर्शन लाभ नेटवर्क इंटरकनेक्ट द्वारा सीमित हैं, जिससे यह मुख्य रूप से महत्वपूर्ण गति सुधारों के बजाय क्षमता के लिए उपयोगी बन जाता है।