تقدم المقالة ELDR، وهو موجه فك تشفير واعٍ بتموضع الخبراء مصمم لتحسين زمن الاستجابة في خدمة الفصل بين مرحلة التعبئة وفك التشفير لنماذج مزيج الخبراء. على عكس الموجهات الحالية التي توازن الحمل فقط، يتنبأ ELDR بالخبراء المنشطين من تنشيطات التعبئة ويوجه الطلبات إلى عمال ذوي توقيعات مطابقة.
- يبني ELDR توقيع خبير من تنشيطات التعبئة للتنبؤ بخبراء مرحلة التوليد.
- يقسم K-means المتوازن غير الخطي مساحة التوقيع عبر عملاء فك التشفير لقرارات التوجيه.
- يوجه توجيه النطاق المحلي عبر الإنترنت الطلبات إلى أقل العمال حملاً بين أولئك الذين يطابقون التوقيع بشكل أفضل.
- تحافظ ذاكرة التخزين المؤقت للتوقيع، المرتبطة فهرسياً مع ذاكرة التخزين المؤقت KV، على التوقيعات الدقيقة تحت التخزين المؤقت للبادئة.
- تم تقييم ELDR على ما يصل إلى 40 وحدة معالجة رسومية في vLLM، حيث قلل من متوسط زمن الاستجابة (TPOT) بنسبة تتراوح بين 5.9 و13.9% عبر ثلاثة نماذج MoE وحملين عمليين.
يعالج هذا النهج الفروق في زمن الاستجابة الناتجة عن أوزان الخبراء المتفاوتة في العمال ذوي الأحمال المتساوية، مما يوفر استراتيجية موازنة حمل أكثر فعالية لنشر MoE.