一位用户通过集成多令牌预测(MTP)草稿器支持,创建了本地智能体编码模型 Ornith 35B FP8 E4M3 的修改版本,解决了与 vLLM 缺乏开箱即用兼容性的问题。

  • 移植过程将 MTP 功能添加到现有模型架构中。
  • 基准测试显示,与运行没有 MTP 的模型相比,速度提升了 18%。
  • 达到的平均草稿器接受率为 70%。
  • 修改后的模型在拥有超过 80GB VRAM 的 RTX 设置上支持 256k 的完整上下文窗口。

此修改为在高端本地硬件上运行 Ornith 35B 的用户提供了性能优化的推理选项。