उपयोगकर्ता ने vLLM के लिए Ornith 35B FP8 E4M3 में MTP को ग्राफ्ट किया

एक उपयोगकर्ता ने स्थानीय एजेंटिक कोडिंग मॉडल Ornith 35B FP8 E4M3 का एक संशोधित संस्करण बनाया है, जिसमें Multi-Token Prediction (MTP) ड्राफ्टर समर्थन एकीकृत किया गया है, जो vLLM के साथ आउट-ऑफ़-द-बॉक्स संगतता की कमी को दूर करता है।

ग्राफ्टिंग प्रक्रिया मौजूदा मॉडल आर्किटेक्चर में MTP क्षमताएं जोड़ती है।
बेंचमार्क दर्शाते हैं कि MTP के बिना मॉडल चलाने की तुलना में गति में 18% की वृद्धि हुई है।
प्राप्त औसत ड्राफ्टर स्वीकार दर 70% है।
संशोधित मॉडल 80GB से अधिक VRAM वाले RTX सेटअप पर 256k की पूर्ण संदर्भ विंडो का समर्थन करता है।

यह संशोधन उच्च-अंत स्थानीय हार्डवेयर पर Ornith 35B चला रहे उपयोगकर्ताओं के लिए एक प्रदर्शन-अनुकूलित इनफरेंस विकल्प प्रदान करता है।