लेख में ELDR का परिचय दिया गया है, जो एक विशेषज्ञ-स्थानीयता-जागरूक डिकोड राउटर है जिसे मिक्स्चर-ऑफ़-एक्सपर्ट्स (MoE) मॉडल के लिए प्रीफिल-डिकोड विघटित सेवा में लेटेंसी को बेहतर बनाने के लिए डिज़ाइन किया गया है। मौजूदा राउटर के विपरीत जो केवल लोड संतुलित करते हैं, ELDR प्रीफिल सक्रियणों से सक्रिय विशेषज्ञों की भविष्यवाणी करता है और अनुरोधों को मatching साइगनेचर वाले वर्कर्स की ओर राउट करता है।
- ELDR जनरेशन-चरण के विशेषज्ञों की भविष्यवाणी करने के लिए प्रीफिल सक्रियणों से एक विशेषज्ञ साइगनेचर बनाता है।
- ऑफ़लाइन संतुलित K-means निर्णयों के लिए डिकोड वर्कर्स के बीच साइगनेचर स्थान को विभाजित करता है।
- ऑनलाइन लोकैलिटी-बैंड राउटिंग अनुरोधों को उस वर्कर की ओर निर्देशित करता है जो साइगनेचर के साथ सबसे अच्छा मेल खाता है और कम से कम लोडेड है।
- KV कैश के साथ सह-इंडेक्स किया गया एक साइगनेचर कैश प्रीफिक्स कैशिंग के तहत सटीक साइगनेचर बनाए रखता है।
- vLLM में 40 GPU तक पर evaluated, ELDR ने तीन MoE मॉडल और दो वर्कलोड्स पर माध्य TPOT को 5.9-13.9% कम कर दिया।
यह दृष्टिकोण समान रूप से लोडेड वर्कर्स में बदलते विशेषज्ञ भार के कारण होने वाली लेटेंसी असमानताओं को संबोधित करता है, MoE डिप्लॉयमेंट के लिए एक अधिक प्रभावी लोड-बैलेंसिंग रणनीति प्रदान करता है।