Пользователь интегрирует MTP в Ornith 35B FP8 E4M3 для vLLM

Пользователь создал модифицированную версию локальной агентной модели для программирования Ornith 35B FP8 E4M3, добавив поддержку драфтера Multi-Token Prediction (MTP), что решает проблему отсутствия совместимости с vLLM из коробки.

Процесс интеграции добавляет возможности MTP в существующую архитектуру модели.
Бенчмарки показывают увеличение скорости на 18% по сравнению с запуском модели без MTP.
Средняя скорость принятия драфтера составила 70%.
Модифицированная модель поддерживает полное контекстное окно размером 256k на конфигурациях RTX с объемом VRAM более 80GB.

Эта модификация предоставляет оптимизированный по производительности вариант вывода для пользователей, работающих с Ornith 35B на высокопроизводительном локальном оборудовании.