Un utilisateur a créé une version modifiée du modèle de codage agentique local Ornith 35B FP8 E4M3 en intégrant le support du drafter Multi-Token Prediction (MTP), comblant ainsi le manque de compatibilité out-of-the-box avec vLLM.

  • Le processus de greffage ajoute les capacités MTP à l'architecture de modèle existante.
  • Les benchmarks montrent une augmentation de vitesse de 18 % par rapport à l'exécution du modèle sans MTP.
  • Le taux d'acceptation moyen du drafter atteint est de 70 %.
  • Le modèle modifié prend en charge une fenêtre de contexte complète de 256k sur les configurations RTX avec plus de 80 Go de VRAM.

Cette modification offre une option d'inférence optimisée pour la performance aux utilisateurs exécutant Ornith 35B sur du matériel local haut de gamme.