يُظهر مستخدم خط أنابيب استنتاج مفكك يستخدم DGX Spark للتهيئة المسبقة (prefilling) وصندوق Strix Halo لتوليد الرموز، محققاً تسريعات كبيرة لأحمال العمل ذات السياق الطويل. من خلال تفويض معالجة المطالبات كثيفة الحساب إلى DGX مع الاستفادة من عرض النطاق الترددي للذاكرة في Strix للفك، يتغلب هذا الإعداد على تدهور الأداء الذي يحدث عند التشغيل بشكل منفرد على Strix.

  • يعمل خط الأنابيب بنموذج Qwen 3.5 122B (MTP) بصيغة GGUF عبر الجهازين باستخدام llama.cpp و EXO.
  • سرعات توليد الرموز متطابقة تقريباً بين الآلتين، مع ميزة طفيفة بنسبة 13-15% لصالح DGX Spark.
  • تُولد التهيئة المسبقة المفككة تسريعات تتراوح بين 2.8x إلى 4.4x مقارنة بالتشغيل من البداية للنهاية على Strix Halo.
  • تنخفض معالجة المطالبات المستقلة في Strix من 275 رمز/ثانية في السياقات القصيرة إلى 140 رمز/ثانية عند 127 ألف رمز، بينما يتعامل DGX مع هذا الحمل بكفاءة.

يتيح هذا النهج للمستخدمين الاستفادة من عتاد التهيئة المسبقة عالي الأداء دون إهدار ميزته الحسابية على توليد الرموز، مما يحل بشكل فعال عنق الزجاجة في حلقات الوكلاء ذات السياق الطويل.