あるユーザーは、Multi-Token Prediction (MTP) ドラフターサポートを統合することで、ローカルエージェント型コーディングモデル Ornith 35B FP8 E4M3 の修正版を作成し、vLLM とのアウト・オブ・ザ・ボックス互換性の欠如に対処しました。

  • grafting プロセスにより、既存のモデルアーキテクチャに MTP 機能が追加されます。
  • ベンチマークでは、MTP なしでモデルを実行する場合と比較して、18% の速度向上が示されました。
  • 達成された平均ドラフター受容率は 70% です。
  • 修正されたモデルは、80GB を超える VRAM を持つ RTX 環境で 256k のフルコンテキストウィンドウをサポートします。

この修正により、ハイエンドのローカルハードウェアで Ornith 35B を実行するユーザー向けに、パフォーマンス最適化された推論オプションが提供されます。