Seorang pengguna telah membuat versi modifikasi dari model coding agentic lokal Ornith 35B FP8 E4M3 dengan mengintegrasikan dukungan drafter Multi-Token Prediction (MTP), mengatasi kurangnya kompatibilitas out-of-the-box dengan vLLM.
- Proses grafting menambahkan kemampuan MTP ke arsitektur model yang ada.
- Benchmark menunjukkan peningkatan kecepatan sebesar 18% dibandingkan menjalankan model tanpa MTP.
- Tingkat penerimaan drafter rata-rata yang dicapai adalah 70%.
- Model yang dimodifikasi mendukung jendela konteks penuh 256k pada setup RTX dengan VRAM lebih dari 80GB.
Modifikasi ini menyediakan opsi inferensi yang dioptimalkan untuk kinerja bagi pengguna yang menjalankan Ornith 35B pada perangkat keras lokal kelas atas.