Пользователь создал модифицированную версию локальной агентной модели для программирования Ornith 35B FP8 E4M3, добавив поддержку драфтера Multi-Token Prediction (MTP), что решает проблему отсутствия совместимости с vLLM из коробки.
- Процесс интеграции добавляет возможности MTP в существующую архитектуру модели.
- Бенчмарки показывают увеличение скорости на 18% по сравнению с запуском модели без MTP.
- Средняя скорость принятия драфтера составила 70%.
- Модифицированная модель поддерживает полное контекстное окно размером 256k на конфигурациях RTX с объемом VRAM более 80GB.
Эта модификация предоставляет оптимизированный по производительности вариант вывода для пользователей, работающих с Ornith 35B на высокопроизводительном локальном оборудовании.