تحقيق متابعة لتشغيل GLM-5.2 NVFP4 على عقد DGX Spark الأربعة يحل عنق الزجاجة السابق للأداء حيث كانت معدلات القبول العالية مستحيلة في سياق 128K.

كان السبب الجذري خطأً في `SpeculativeConfig.create_draft_parallel_config()` الخاص بـ vLLM فشل في نسخ `decode_context_parallel_size`، مما جعل طبقات المسودة تتجاهل تقسيم DCP. أدى ذلك إلى معالجة آليات الانتباه لشرائح التخزين المؤقت المحلي كبيانات عالمية، مما أدى إلى انهيار معدلات القبول لـ MTP2 و MTP3.

  • تحسن الأداء من ~15 tok/s إلى ~24 tok/s في سياق 128K باستخدام DCP4 و MTP3/MTP4.
  • وصلت معدلات قبول MTP لكل موضع إلى 0.90 و 0.79 و 0.67 للرموز التخمينية الثلاثة الأولى.
  • تضمنت الإصلاحات إضافة سطر تكوين مفقود ليعكس منطق المصدر وإعادة الأساس إلى فرع vLLM أحدث.

يقضي هذا الحل على المقايضة السابقة بين طول السياق والسرعة، مما يسمح للمستخدمين بتشغيل سياق كامل 128K مع إخراج عالي على هذا التكوين للأجهزة.