एक उपयोगकर्ता ने स्थानीय एजेंटिक कोडिंग मॉडल Ornith 35B FP8 E4M3 का एक संशोधित संस्करण बनाया है, जिसमें Multi-Token Prediction (MTP) ड्राफ्टर समर्थन एकीकृत किया गया है, जो vLLM के साथ आउट-ऑफ़-द-बॉक्स संगतता की कमी को दूर करता है।

  • ग्राफ्टिंग प्रक्रिया मौजूदा मॉडल आर्किटेक्चर में MTP क्षमताएं जोड़ती है।
  • बेंचमार्क दर्शाते हैं कि MTP के बिना मॉडल चलाने की तुलना में गति में 18% की वृद्धि हुई है।
  • प्राप्त औसत ड्राफ्टर स्वीकार दर 70% है।
  • संशोधित मॉडल 80GB से अधिक VRAM वाले RTX सेटअप पर 256k की पूर्ण संदर्भ विंडो का समर्थन करता है।

यह संशोधन उच्च-अंत स्थानीय हार्डवेयर पर Ornith 35B चला रहे उपयोगकर्ताओं के लिए एक प्रदर्शन-अनुकूलित इनफरेंस विकल्प प्रदान करता है।