Um usuário criou uma versão modificada do modelo de codificação agêntica local Ornith 35B FP8 E4M3 integrando suporte ao drafter Multi-Token Prediction (MTP), resolvendo a falta de compatibilidade com vLLM fora da caixa.

  • O processo de integração adiciona capacidades MTP à arquitetura existente do modelo.
  • Os benchmarks mostram um aumento de velocidade de 18% em comparação com a execução do modelo sem MTP.
  • A taxa média de aceitação do drafter alcançada é de 70%.
  • O modelo modificado suporta uma janela de contexto completa de 256k em configurações RTX com mais de 80GB de VRAM.

Esta modificação fornece uma opção de inferência otimizada para desempenho para usuários que executam Ornith 35B em hardware local de alta gama.