قام مستخدم بإنشاء نسخة معدلة من نموذج البرمجة الوكيلية المحلية Ornith 35B FP8 E4M3 من خلال دمج دعم drafter التنبؤ متعدد الرموز (MTP)، مما يعالج نقص التوافق الجاهز مع vLLM.

  • تضيف عملية الدمج قدرات MTP إلى بنية النموذج الحالية.
  • تظهر المقاييس زيادة في السرعة بنسبة 18% مقارنة بتشغيل النموذج بدون MTP.
  • معدل قبول drafter المتوسط المحقق هو 70%.
  • يدعم النموذج المعدل نافذة سياق كاملة بحجم 256k على إعدادات RTX مع أكثر من 80GB من VRAM.

يوفر هذا التعديل خيار استنتاج محسّن للأداء للمستخدمين الذين يشغلون Ornith 35B على أجهزة محلية عالية المستوى.