Пользователь создал модифицированную версию локальной агентной модели для программирования Ornith 35B FP8 E4M3, добавив поддержку драфтера Multi-Token Prediction (MTP), что решает проблему отсутствия совместимости с vLLM из коробки.

  • Процесс интеграции добавляет возможности MTP в существующую архитектуру модели.
  • Бенчмарки показывают увеличение скорости на 18% по сравнению с запуском модели без MTP.
  • Средняя скорость принятия драфтера составила 70%.
  • Модифицированная модель поддерживает полное контекстное окно размером 256k на конфигурациях RTX с объемом VRAM более 80GB.

Эта модификация предоставляет оптимизированный по производительности вариант вывода для пользователей, работающих с Ornith 35B на высокопроизводительном локальном оборудовании.