Пользователь сообщает о повышении скорости генерации токенов на 30-40% за счёт использования модели Ornith-1.0-35B в качестве черновой модели вместе с Qwen3.6-35B-A3B-DFlash через llama-server.
- Конфигурация использует Ornith-1.0-35B-GGUF (Q8_0) в качестве спекулятивной черновой модели через флаг `--spec-type draft-dflash`.
- Тестирование на контексте из 50k токенов, состоящем из смешанного кода JavaScript и текста Wikipedia, показало уровень принятия токенов 80%.
- Настройка включает запуск llama-server с определёнными параметрами для длины контекста, температуры и количества шагов черновой модели.
Хотя эта комбинация повышает скорость генерации, она приводит к значительному замедлению времени обработки промпта, что означает её непригодность в качестве универсального решения.