قام مستخدم بتقييم تشغيل نموذج Kimi K2.7 Code بحجم 432 جيجابايت مقسّم بين Mac Studio M3 Ultra و NVIDIA RTX PRO 6000 باستخدام llama.cpp RPC، ووجد أن سرعات prefill تتحسن بينما تظل أداءات decode دون تغيير كبير.
- زادت سرعة prefill بنسبة حوالي 14.8% عند تحميل 20% من النموذج إلى GPU.
- أظهرت سرعة decode مكسبًا طفيفًا بنسبة 4.2% فقط، مما أدى إلى تحسين إجمالي في وقت الطلب بنسبة حوالي 12.3%.
- حققت التكوين أقصى تقسيم عملي بنسبة 20% على بطاقة RTX مع سياق 128K قبل الفشل عند التقسيمات الأعلى.
- قُيست حركة مرور RPC بحوالي 112-113 ميغابايت/ثانية عبر اتصال Ethernet مباشر، وكانت تكاليف الشبكة أكثر وضوحًا أثناء prefill مقارنة بـ decode.
يستنتج المؤلف أن هذا التكوين يساعد في استيعاب نماذج أكبر عبر الأجهزة، لكن مكاسب الأداء محدودة بالاتصال الشبكي، مما يجعله مفيدًا أساسيًا للسعة بدلاً من التحسينات الكبيرة في السرعة.