أبلغ مستخدم عن زيادة في الأداء لـ DeepSeek V4 Pro الذي يعمل محليًا عبر فرع مخصص من llama.cpp يحتوي على إصلاحات وتحسينات متنوعة. تشارك المقالة نتائج الاختبارات المرجعية من نظام Epyc 9374F مزود بـ RTX PRO 6000 Max-Q، مع ملاحظة أن استخدام النموذج للذاكرة يظل مرتفعًا في الإصدارات الرئيسية.

  • أُجريت اختبارات المعايير باستخدام ملف GGUF بحجم 794 جيجابايت على عتاد يحتوي على 12 × 96 جيجابايت من ذاكرة الوصول العشوائي DDR5 و 96 جيجابايت من ذاكرة الفيديو.
  • يحل الفرع المخصص مشكلات الاستهلاك المفرط للذاكرة الناتجة عن مخازن مؤقتة لحسابات مؤشر Lightning ومخازن مؤقتة لـ CUDA top-k.
  • يدعم llama.cpp الرئيسي حاليًا ذاكرة التخزين المؤقت KV المُكمَّمة بشكل معطل، وهناك أخطاء محتملة تتعلق بإعادة استخدام ذاكرة التخزين المؤقت للرسائل وتحضير الدفعات.

يُبرز المؤلف أنه على الرغم من أن تحسيناته المحددة تحسن السرعة، إلا أن المستخدمين الذين يعتمدون على llama.cpp الرئيسي قد يواجهون حمل ذاكرة كبير وأخطاء وظيفية.