한 사용자가 Multi-Token Prediction (MTP) drafter 지원을 통합하여 로컬 에이전틱 코딩 모델 Ornith 35B FP8 E4M3의 수정된 버전을 생성했으며, 이는 vLLM과의 기본 호환성 부재를 해결합니다.

  • grafting 프로세스는 기존 모델 아키텍처에 MTP 기능을 추가합니다.
  • 벤치마크 결과 MTP 없이 모델을 실행하는 것보다 18% 속도 향상이 나타났습니다.
  • 달성된 평균 drafter 수용률은 70%입니다.
  • 수정된 모델은 80GB 이상의 VRAM을 갖춘 RTX 환경에서 256k 전체 컨텍스트 창을 지원합니다.

이 수정은 하이엔드 로컬 하드웨어에서 Ornith 35B를 실행하는 사용자에게 성능 최적화된 추론 옵션을 제공합니다.